in Uncategorized

Por que acredito que no Brasil estamos entrando em uma bolha de Data Science?

TL;DR: Faça uma avaliação racional e pragmática baseada em fatos e informações de mercado antes de escolher uma mudança de carreira ou até mesmo alternativas de investimento em qualificações em Data Science & Machine Learning. 

Eu sei que nos dias de hoje o que eu estou falando pode parecer ser contraintuitivo, ao mesmo tempo que temos empresas anunciando que vão contratar 100 cientistas de dados em um único ano (mesmo sem nenhuma justificativa sólida do porque e principalmente do retorno esperado com essas contratações), ou quando o volume de buscas em “ciência de dados” aumenta em mais de 50% em menos de 3 anos, ou em uma busca simples podemos encontrar mais de 1.500 vagas disponíveis no LinkedIn.

Claro que a minha opinião não é a mais popular atualmente, mas o que eu vejo hoje são os mesmos padrões das bolhas passadas em tecnologia no Brasil.

Quem não se lembra da bolha de Certificações Microsoft? (alguém lembra do famigerado programa Maestro de SQL Server?)

Ou da bolha de certificações Oracle?

Do cursos da dobradinha campeã PHP e MySQL que prometiam os maiores salários do mercado?

Ou das promessas do eldorado de salários e empregabilidade como Web Designer com os cursos de Corel Draw, Dreamweaver e Flash?

E os cursos de frameworks ITIL, COBIT, TOGAF ou BABOK que nos prometiam cargos maravilhosos apenas gerenciando processos de negócios? (Sendo que muita faculdade e cursos livres igualmente picaretas ao invés de ensinarem o básico de código, jogaram uma geração inteira de universitários em frameworks de “gestão” sendo que parte deles não conseguem gerenciar nem mesmo a própria vida financeira).

Tudo o que eu vou colocar aqui diz respeito ao lado da oferta de cientistas de dados, e não da demanda propriamente dita (i.e. isso merece um post especial, mas na prática pouquíssimas empresas sabem o que estão contratando e tem uma galera contratando somente para sinalização). 

Desta forma este post vai ser muito mais voltado para gestão de carreira do que para um retrato de mercado. 

Longe de ser algum tipo de coach ou algo do semelhante, o meu objetivo vai ser convidar o leitor para uma reflexão sobre alguns aspectos que eu julgo como importantes de acordo com algumas observações que eu tenho feito no mercado como um todo de forma empírica.

Alguns aspectos que sinalizam que talvez estamos em uma bolha de Data Science e Machine Learning na minha visão são:

1) O Retorno do Investimento (ROI) em uma formação em DS em relação aos salários não compensa: Eu vou tirar desta análise os MOOCs e cursos sensacionais como o da Fast.ai do Jeremy Howard por um motivo muito simples: Nós no Brasil adoramos um diploma e o nosso sistema educacional foi moldado de uma forma que não promove o autodidatismo, mas promove um modelo baseado em tutoria em que o professor não é um facilitador mas é o responsável e guardião do  conhecimento em si. O que eu quero dizer é que esta análise do ROI vale exclusivamente para cursos de pós-graduação e cursos de extensão. Eu fiz uma pequena pesquisa em alguns cursos e existem algumas formações que custam mais de R$ 30.000. Nada contra o valor em si, porém, vamos falar que o retorno esperado deste investimento seja de 4 anos. Isso dá R$ 625/mês por 4 anos. Em outras palavras: desde o dia em que o curso termina, o nosso recém-formado já precisa de um aumento de pouco mais de R$ 600 só para ficar no empate em relação a sua formação. Ah, e lógico fora o custo de oportunidade do tempo (e.g. tempo de aula, deslocamento, alimentação, etc) e o custo de oportunidade do dinheiro (e.g. usar esse dinheiro em algum investimento, fundo de ações, etc). Tendo em vista uma recessão brutal que tivemos nos últimos anos (e com a renda praticamente estagnada) eu consideraria muito bem uma decisão de investimento (ou endividamento) desde porte sem uma perspectiva de retorno de no mínimo de 2 anos.

2) O mercado está cada vez mais competitivo e a barreira de entrada está quase nula e ao mesmo tempo que isso é bom, isso pode ser um problema. Se eu tivesse que descrever o mercado a frase que mais se assemelha de como eu vejo é Bellum omnium contra omnes, ou guerra de todos contra todos. Se você é Cientista da Computação, você vai competir com Econometristas que sabem mais de modelagem do que você; se você é Estatístico vai competir com Cientistas da Computação que codam mais que você; se você é Econometrista vai competir com Estatísticos que dominam um ferramental matemático/estatístico melhor do que o seu, e todos eles vão competir com pessoas com mestrado e doutorado. O ponto aqui é que a competição vai ficar cada vez mais brutal e isto no longo prazo não é escalável em termos de carreira dado que são disciplinas que demandam tempo para o aprendizado.

3) Assim que o mercado começar a ter a desilusão com contratações erradas e as frustrações corporativas com os cientistas de dados começarem, os processos seletivos vão ficar mais acirrados e não haverá bons espaços para todos. Uma coisa que eu aprendi como contratante em um período da minha carreira foi: A cada decepção devido a uma contratação errada duas medidas brutais entravam em cena: a) os requerimentos, testes e as exigências aumentam muito mais e b)  salário aumentava em proporção dado que a exigência seria a maior caso o candidato fosse aprovado. O que eu quero dizer aqui é que as posições vão começar a sofrer uma escalada insana de habilidades para as melhores posições e o mercado vai ser dividido em “posições boas” e “posições ruins”. Em outras palavras: entrar como Data Scientist ganhando abaixo do mercado só fazendo consulta em SQL e mexendo em macro no Excel é fácil, o difícil é ir para a tigela dos altos salários e usar ferramental moderno para resolução de problemas difíceis.

4) A enxurrada de gente sem a mínima ideia do que é Ciência ou Dados entrando na área: Pensa bem, neste exato momento milhares de pessoas estão entrando no campo sem nenhum tipo de ideia do mercado por conta de hype, influencers, mídia e outras fontes que prometem o eldorado dos altos salários ou descrevem Data Science como a profissão mais sexy do século 21. Isto não é escalável e uma hora grande parte dessas pessoas que estão se aventurando vão ter uma desilusão muito grande dado os motivos no item 3) ou mesmo quando as empresas darem conta que o maluco do Excel que está a milhares de anos da empresa manja mais do negócio e dos números do que toda a galera que fica fazendo script copiado do Towards Data Science no Macbook Pro de retina display com sticker de conferência gringa.

5) Vocês acham mesmo que repentinamente todas as empresas do sistema solar nunca ouviram falar de análise de dados básica ou estatística básica? Que somente agora elas acordaram de um torpor dos últimos 25 anos e elas decidiram que precisam de unicórnios mandados dos céus para salvar as empresas da falência através de insights gerados dos dados? Com ou sem cientistas de dados todos os dias no sistema solar negócios são fechados, vendas são feitas, pessoas compram coisas, e o dinheiro circula de uma mão para a outra.

Mas vamos supor que você me veja como um vendido ou uma pessoa com interesses ocultos por conta do que eu disse. Dessa forma, não acredite em mim, mas sim nas pessoas e instituições atores abaixo; eles sim sabem o que é melhor para a sua carreira:

a) Universidades e alguns professores de cursos de extensão e pós-graduação: Se a sua principal fonte de receita dependesse de um maior volume de alunos possível ou se a sua instituição servisse como o proxy predileto para contratação, você anunciaria que estamos em uma bolha educacional (onde já temos o incrível advento dos diplomas inúteis no Brasil) ou surfaria na onda e ofereceria cursos caça níquel que estão no mínimo 3 anos atrás do mercado? Uma coisa que eu vejo muito são instituições que estiveram dormindo por mais de 5 anos em relação a ciência de dados ou dados em geral que repentinamente abrem um curso de Data Science e Machine Learning com um corpo docente que nunca foi do mercado e com grades que não correspondem com a realidade do que está sendo feito nas empresas e nem cobrem aspectos básicos que todo cientista deveria saber. Novamente não precisam acreditar em mim: Vá nos cursos de extensão e pós-graduação e veja quais deles estão ensinando fundamentos de estatística básica, inferência causal, cálculo, álgebra, etc.

b) Mídia: Não se engane, por trás de todo anuncio de empresas contratando inúmeros cientistas de dados existe um submundo de matérias pagas para gerar algo chamado Brand Awareness. Inúmeras empresas usam a mídia para veicular matérias e “notícias” que favoreçam essas empresas (e.g. a revista faz uma matéria positiva sobre a empresa  A e meses depois uma empresa subsidiada da empresa A paga um anúncio de 300 mil reais para a mesma revista) para dar a percepção de que aquela empresa é legal e que faz coisas incríveis, quando na verdade está apenas vinculando a sua marca positivamente enquanto as vagas reais mesmo estão fechadas (isto quando estas vagas existem).

c) Papo de conferência: Eu como um bom rato de conferência tenho que dar o braço a torcer em que eu caí muito nisso no passado. Eu ia na conferência e deslumbrado com a tecnologia eu já fazia um plano de estudos para a nova ferramenta para Data Science ou Machine Learning. Você volta energizado da conferência para a sua empresa com a expectativa de implantar aqueles cases maravilhosos, mas na realidade você termina fechando ticket de tarefa sem sentido no JIRA.

d) Influencers, tecnologistas e afins: Estes adoram quando você fica mudando de tecnologias assim como muda de roupa por um motivo simples: isto dá mais views no youtube, mais comentários sobre o que está “trendando”, mais artigos em seus blogs no Medium, e mais do que isso: eles ganham credibilidade somente mostrando o que fazer e não fazendo algo corporativamente ou academicamente e pior – tudo isso sem nenhum tipo de risco envolvido caso o que eles recomendem de errado. Ciência e Engenharia são coisas que andam lentamente mas com passos firmes. Uma troca de tecnologia ou mesmo a adoção de novas ferramentas (ao menos em empresas sérias) é um processo que pode levar anos ou deve ter um motivo muito razoável para acontecer. Eu trabalhei em uma empresa que o software de fila só foi trocado depois de muitos problemas de instabilidade, e mesmo com um novo sistema o nosso “failback” ainda ficava nos velhos e sempre confiáveis arquivos texto. O ponto que eu quero deixar aqui é: ao ver influencers, tecnologistas e afins falando sobre novas ferramentas e frameworks que você precisa aprender, desconfie e entenda que as empresas não vão sair de tecnologias estabelecidas em que elas tem corpo de conhecimento e know-how para embarcar na sua aventura como Cientista de Dados “antenado” com o mercado. 

e) Amigos e colegas que já estão no mercado: Uma pequena parte desta galera nunca vai admitir que estão em uma bolha por um motivo simples: esta galera acredita realmente que são excelentes e merecedores de suas posições e salários nababescos. Entretanto, parte destes colegas esquecem dos fatores causais não identificados que os levaram a ter a posição que eles têm hoje. Por exemplo, pode ser tempo de casa, tempo na posição de DS antes do hype do mercado, track record na empresa não relacionado com DS, ou mesmo falta de alguém que tenha um conhecimento técnico mas que também conheça o negócio. E lógico não vamos esquecer que nós seres humanos somos ótimos em subestimar o papel do acaso e da sorte nas nossas vidas. No final do dia somos seres humanos e amamos uma narrativa romantizada da realidade. Agora cair na narrativa é questão de escolha.

Por fim eu quero colocar algumas mentiras que as pessoas contam sobre Data Science e Machine Learning:

As formações não estão caras: Parem pra pensar: uma formação não é somente o valor pago, mas sim o custo de oportunidade e mais o tempo que vai ser investido como eu coloquei anteriormente. Ciência de Dados hoje é uma área muito dinâmica que está mudando muito rápido. Ferramentas em menos de 1 ano ganham direcionamentos totalmente diferentes. Será que vale a pena investir 18 ou 36 meses pagando mais de R$ 1.500 em uma formação e ao final praticamente todos os frameworks ensinados já estão sendo descontinuados ou em outras versões? Tudo isso para que? Conseguir um emprego em uma vaga júnior ou no máximo ter R$ 350 de aumento sendo que você gastou R$ 40 mil em uma formação? Não parece um ROI ideal pra mim.

Há um déficit de cientistas de dados no mercado: Isto é parcialmente verdade. No caso, inúmeras empresas precisam modernizar a maneira com a qual elas fazem análise, dado que algumas ainda estão no paradigma descritivo ou diagnóstico e querem ir para a parte preditiva e prescritiva. Contudo, a não ser que você trabalhe em empresas que realmente estão usando os dados em seus produtos como por exemplo Nubank, Quinto Andar, Pipefy, Movile e etc, grande parte das empresas ainda precisam sair do excel e do combo “média-desvio-padrão-correlação-gráfico-de-pizza”. E não existe absolutamente nada de errado com isso. O ponto e o que o mercado pensa que um cientista de dados tem habilidades de Data Engineer, Data Scientist, Software Engineer, DBA, analista de requisitos tudo no mesmo papel. Então se você pensa que vai chegar na sua posição de Cientista de Dados fazendo análises  em dashboards como no Minority Report enquanto toma um delicioso vinho italiano enquanto escuta Toccata em Ré menor de Bach enquanto tem os seus insights, eu tenho uma péssima notícia: Isto não vai acontecer. No melhor dos casos você vai ficar brigando com DBA para ter acesso no banco de dados, vai encontrar muita defensividade de analistas que não tem um emprego tão sexy quanto o seu, e sem o conhecimento de negócio você vai ser sempre colocado de escanteio pela galera do Excel (esse relato antológico mostra bem isso).

Eu preciso ser Data Scientist para dar certo na vida: Existem muitas coisas bacanas em engenharia fora de Data Science que são tão importantes quanto como DevOps, Site Reliability Engineering, Front/Backend Engineering, Data Engineering, Automation, Incident Response, Mobile Development, Security, Infraestrutura, etc. E acredite são posições que pagam muito bem, exigem conhecimentos que são difíceis de serem adquiridos e sempre terá demanda e impactam diretamente no negócio.

Considerações Finais

Lendo esse relato que beira o pessimismo extremo alguns podem falar “mas poxa, então eu não devo ir para a área de Data Science?” a minha resposta e “vá, mas entenda os principais problemas da área e saiba que este não é o único caminho.Tenha em mente que frustrações de expectativas nos aspectos profissionais e financeiros podem ser uma realidade e poucas pessoas estão falando sobre isso”. Eu penso que sempre haverá espaço para bons profissionais, independente do que fazem e empresas boas sempre contratam pessoas boas mesmo se não tiver o budget, a vaga, ou mesmo a posição propriamente dita. Espero que esse pequeno relato tenha jogado um pouco de racionalidade e luz sobre a carreira em Data Science e sirva ao menos para uma reflexão.

Notas

[1] Este post foi descaradamente inspirado no relato de 2010 do Bolha Imobiliária de Brasília que viu o principal problema no seio da economia brasileira em relação à bolha de crédito.

[2] Este escriba recusa-se (ao menos aqui no blogue) a adotar o novo padrão de escrita da internet sentenças com no máximo 7 palavras muito simples. Como eu acredito que os leitores deste blogue são pessoas de capacidade cognitiva avançada, as sentenças vão ficar complexas. Reduzir a complexidade para uma linguagem que promove o emburrecimento dos leitores nunca foi e nunca será o foco aqui.

Write a Comment

Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

11 Comments

  1. Concordo em gênero, número e grau mesmo tendo começado recentemente um curso de Ciência de Dados que é o meu desejo a pelo menos três anos. A questão que as pessoas se iludem muito facilmente. Eu era assim quando comecei Ciência da Computação e acabei ficando tão frustrada no curso que larguei. Atualmente sou Front-end Developer e acho que Ciência de Dados só me dá um novo leque de opções em questão de trabalho.

    • Oi Gislaine! Obrigado pelo comentário.

      No caso eu penso que sempre é bom ter estes tipos de “side interests” em tecnologia, em especial no que está forte no mercado nos dias de hoje. Sobre o caso da sua desistência isto é normal. Para você ter uma ideia, na minha turma de SI começamos e 182 pessoas e na minha formatura teve somente 2 pessoas e eu.

      Eu penso que o profissional do futuro será muito mais adaptativo em que ele consegue a posição e vai colhendo o conhecimento no caminho ao invés de adquirir todo um corpo de conhecimento volátil e antes da formação estar totalmente desatualizado.

      Obrigado pelo comentario.

  2. Muito bom, seria muito conveniente fechar os olhos e acreditar, mas a realidade sempre é cruel, vai ter gente vendendo a alma para pagar um curso que não tem perspectiva de retorno e pior, transformação zero, tanto de quem faz quanto de quem aplica!

    • Exato. Não que seja ruim aproveitar de um hype, o grande ponto não dito são os casos de pessoas que não dão certo e não tem voz para falar a respeito dos desafios.

      Este texto fala somente sobre esse vies de sobrevivência que vemos nas carreiras de DS/ML e AI.

      Forte abraço!

  3. Quando você começa a comparar a “bolha de data science” com “bolhas de tecnologias” que ocorreram no passado, pra mim, já é uma premissa equivocada. A área de data science é muito maior que a área de tecnologia. Eu acredito em uma total revolução em como tomamos decisões hoje. Você sabe como são tomadas as decisões estratégicas em grande parte das empresas, hoje? Basicamente são filtros em um CRM com aplicações de BI. Startups vêm revolucionando o setor justamente por causa dessa mudança de mindset e aplicação de data science. Validando hipóteses em dados, com machine learning e etc. E é assim que eu vejo o futuro. Ao invés de um funcionário coletar dados em um CRM, jogar pro Excel, fazer uma análise superficial e depois passar isso pra um PowerPoint e apresentar para um diretor, com o uso de data science, transformamos essa dinâmica completamente.

    • (Aviso vai conter inumeros problemas de pontuação)

      Ola Obrigado pelo comentario!

      Essas bolhas de tecnologia tem exatamente as mesmas características dessas bolhas de tecnologia, em relação ao timing e potencialidades que são, ao meu ver, exageradas.

      Eu vou expandir esse ponto para dois casos que citei no texto: Certificação SQL Server Maestro e Ilustração Digital com Web Design.

      Essas duas “bolhas” elas tiveram duas coisas que DS teve hoje que form: Timing e necessidade.

      Entre 2008/2013 grande parte das empresas descobriram que olhando para dentro dos seus dados elas poderiam identificar ineficiências e maneiras de otimização usando somente analise desses dados e estruturando esses dados. Essa era a necessidade, e o timing ocorreu devido ao fato de que nesse período de tempo as tecnologias dos SGBD tiveram o maior salto em termos de funcionalidades de todos os tempos.

      Em relação ao Web Design e tudo mais isso foi mais cedo. Ao menos da minha carreira se eu tivesse que colocar um ponto eu diria que foi em 1999. Naquela epoca uma parte das empresas mais “tradicionais” tinham a necessidade de ganhar um novo campo de mercado que era a internet, e o timing foi o fato de quem estava entrando praticamente levava o mercado inteiro (e.g. o UOL).

      Hoje em DS temos a necessidade (analises de dados) e o timing (novas tecnologias e capacidade de processamento).

      DS não eh maior que tecnologia, mas sim um campo mais interdisciplinar. Na minha visão o que vai matar DS vai ser a falta de profundidade em outras disciplinas como eu coloquei no texto.

      Eu tenho a mesma visão para o futuro (apesar do texto terminar de forma bem pessimista; contudo essa mudança vai ser mais lenta.

      Obrigado pelo ponto de vista e vi temos mais convergências do que divergências.

    • Data science é só mais um campo na area de tecnologia de uma empresa. Voce pode ter o melhor cientista de dados no seu time, retirando o melhor insight, mas sem bons desenvolvedores para construirem sua aplicação, um bom time de banco de dados, uma boa equipe de infraestrura, um bom time de marketing, uma boa gerencia, um bom time de vendas (quando necessário), nenhuma startup vai ser a tope somente com data science.

  4. Legal o texto e parabéns por uma forma de pensamento diferente!

    Vamos ver se num futuro não muito distante, os “robôs” vão fazer programas e análises de dados de forma automática e vão tirar emprego de muita gente!!!

    • Eu vejo com bons olhos o AutoML e iniciativas semelhantes as quais eu penso que vão tirar alguns profissionais do mercado, mas por outro lado vão resolver muitos problemas de infraestrutura e de exploração dos modelos e das analises.

      Forte abraço e obrigado pelo comentário.

  5. O seu texto é muito bom no sentido de refletir sobre o retorno do investimento em formações de data science e também nas expectativas que as pessoas tem sobre esta carreira. Encontrei um texto que faz um questionamento similar ao seu, mas aponta a formação de lideranças em ata science como fundamentais para sustentar a demanda pelos data scientists. Os líderes principalmente fariam a ligação destes especialistas com as áreas de negócio da empresa. Desta forma eles teriam oportunidades de solucionar problemas práticos de redução de custos, aumento de eficiência e melhores experiências do consumidor.
    https://towardsdatascience.com/data-science-leaders-there-are-too-many-of-you-37bff8088505

  6. Oi Flávio!!

    Excelente texto, eu te mandei um e-mail (no que está no perfil do desse blog) e gostaria de saber seu ponto de vista!

    Obrigado pela atenção!