De mineradores a analistas de dados, qual é o real perfil dos Data Scientists?
A comparação clássica sempre é entre o estatístico versus o especialista em computação, mas existem outros profissionais igualmente aptos a desenvolverem a função

A indústria vive reinventando nomes. Quando migrei do mundo
acadêmico para o empresarial a palavra da moda para descrever a
implementação de métodos analíticos era Data Mining. Éramos chamados de
“mineradores de dados”, numa tentativa de descrever nosso trabalho como
extração de ouro dos dados. Nos últimos tempos, com a popularização
destas soluções, surge um novo termo: Data Science! Subimos de nível
então?
A palavra cientista realmente combina mais com nosso perfil
profissional, mesmo que as vezes chegue a ser vulgarizada. Recentemente,
em um evento de Big Data, quando perguntado sobre os métodos de Data
Science, o palestrante respondeu que, basicamente, se resumia em
“conectar uma série de caixinhas e escolher qual era a melhor”. Doeu nos
ouvidos! Se é para trocar caixinhas, bastaríamos ser operadores de
empilhadeiras! O Data Science é sinônimo de método científico, é o
processo continuo de aprendizagem, é previsão e otimização de decisões.
O Data Science é o processo continuo de aprendizagem
Em reuniões de equipe sempre surge o debate sobre qual seria o tipo
de perfil adequado para desenvolver o Data Science, e a comparação
clássica sempre é entre o estatístico versus o especialista em
computação, mas existem outros. O Estatístico domina profundamente a
teoria, sobretudo a medição das incertezas, que é fundamental para
separar o sinal do ruído, já que facilmente caímos na armadilha de
encontrar padrões no próprio ruído. Geralmente não são bons
programadores, por isso uma complementação deixaria o perfil mais
robusto. Eles também se dividem em frequentistas ou bayesianos, mas isto
é tema para outro artigo.
Em contraposição estão os especialistas em computação, os chamados
programadores. São muito hábeis em implementar estruturas complexas de
modelos de machine learning e métodos paralelos do Big Data. Mas
observamos dificuldades na hora de resumir uma extração de conhecimento
de negócio ou responder sobre eventuais desvios nos modelos.
Matemáticos (falo dos “aplicados”): são um perfil
bem completo. Frequentemente são bons programadores e com pensamento
abstrato tão agudo que as vezes vira um problema quando é preciso
explicar o modelo de forma simples a um cliente.
Físicos (a ciência mãe): gosto deles! Enxergam tudo
como um fenômeno, com sua origem, desenvolvimento e abrangência.
Problemas clássicos de abandono de clientes são vistos com o mesmo
prisma da mecânica quântica, no final cada cliente pode ser observado
como partícula e onda ao mesmo tempo. Também gosto pela beleza que
procuram nas equações: modelo bom tem que ser bonito. Todo físico sabe
disso!
Biólogos (ou físicos da vida): adoro a visão de
incorporar analogias do comportamento dos seres vivos nas análises. No
final quase sempre estamos modelando seres vivos! A quem ocorre a ideia
de modelar o efeito da frequência de exposição da mídia utilizando uma
forma funcional do efeito do fertilizante sobre numa planta? Ou criar um
sistema de gestão de modelos baseados em conceitos evolutivos de
elementos vivos?
Engenheiros (práticos: 2+2=3.9, pode ser uma ótima solução):
Muitos dos métodos usados no Data Science foram criados por engenheiros
diante da necessidades de resolver problemas concretos. O cientista de
dados tem que ser sempre um pouco engenheiro, afinal lidamos com
projetos e tempos, e como em qualquer profissão precisamos ser
rentáveis. Aqueles engenheiros provenientes de áreas de controle ou
processamento de sinais já trazem uma bagagem em técnicas bastante
completa para o Data Science.
Economistas: às vezes muito criticados, mas são eles
que têm a coragem de explicar as coisas que ninguém se atreve.
Incorporam a visão filosófica de negócio fundamental na modelagem,
especialmente se são bons em econometria.
Psicólogos: não temos por agora ninguém. Mas depois
do Daniel Kahneman – psicólogo ganhador do Nobel em Economia – acho que é
próximo perfil que gostaríamos de incorporar na nossa empresa. O
entendimento do ser humano com suas decisões irracionais será
fundamental para o melhoramento dos modelos.
Independentemente da palavra de moda para designar o trabalho da
análise de dados, muito novos perfis serão atraídos a este fascinante
mundo: administradores, jornalistas, médicos, inclusive já surgem
faculdades específicas sobre a profissão. De qualquer maneira, é na
interseção de fronteiras de conhecimento onde a inovação prevalece. Por
isso acreditamos na mescla de perfis e na contraposição de visões de
pensamento, baseadas sempre no método cientifico.
Se você é Data Scientist, qual é tua área de origem?
(*) Eugenio Caner é diretor da Murabei Data Science
