Qual é o perfil do cientista de dados?

Quais habilidades essa nova profissão exige e que ferramentas esse talento precisa dominar para lidar com o fenômeno Big Data.

Author Photo
8:30 am - 29 de outubro de 2013

Big
Data é um tsunami ainda em alto mar. Sabemos que vem mais e que ainda
estamos brincando na praia. Mas, o assunto Big Data começa a chamar
atenção. Diversos estudos e pesquisas apontam que muitas empresas
começam a implementar iniciativas nesta área. E este cenário do
crescimento do Big Data aponta também o surgimento de novas
oportunidades de emprego para profissionais de TI e de outros setores.

Mas
a capacitação para Big Data é um problema grave quando nem sabemos
exatamente que funções serão necessárias. Coletei algumas dessas funções
pesquisando na Web: data scientists, data miners, data modelers and
analysts, data visualization designers, predictive analysts,
quantitative analysts, Big data architects and engineers, business
analysts, analysts directors, data architects, data analysts, BI
directors, research analysts, web analysts, R&D specialists e Hadoop
specialists.

Vamos
nos concentrar em algumas funções mais citadas. Uma delas é o chamado
de “data scientist” ou cientista de dados. Esta função demanda
normalmente formação em Ciência da Computação e Matemática, bem como as
habilidades analíticas necessárias para encontrar a providencial agulha
no palheiro de dados recolhidos pela empresa.

“Um
cientista de dados é alguém que é curioso, que analisa os dados para
detectar tendências”, disse recentemente Anjul Bhambhri, vice-presidente
de Produtos Big Data da IBM. “É quase como um indivíduo renascentista,
que realmente quer aprender e trazer a mudança para uma organização.”

Não
é uma pessoa fácil de achar e em decorrência da escassez de
profissionais, a área de TI não tem agido de forma proativa neste
conceito. Na verdade muitos CEOs expressam sua frustração com TI em
relação a Big Data e uma frase de John Harris, chairman do Corporate IT
Forum, organização que reúne altos executivos no Reino Unido, é muito
interessante. Segundo ele, os CEOs sabem onde está o ouro e não entendem
porque TI não o extrai lá. 

Eles, CEOs, sentem que os gestores de TI não
são geólogos que sabem onde extrair ouro. E faz uma comparação muito
interessante com os técnicos que trabalharam na decifração da quebra dos
códigos de comunicação dos alemães na Segunda Guerra Mundial. Eles eram
matemáticos e linguistas que pensavam de forma criativa. Na opinião
dele, os cientistas de dados devem ser os profissionais que conhecem
profundamente o negócio e tenham imaginação e criatividade para fazer as
perguntas certas. E não necessariamente serão encontrados no setor de
TI.

O
trabalho de um cientista de dados foi exemplificado na Harvard Business
Review, versão online em outubro de 2012. No texto, os autores
mencionam o trabalho de um pesquisador da Universidade Stanford, que
percebeu que a rede social LinkedIn estava monótona e que as pessoas
realizavam poucas interações sociais. O pesquisador então sugeriu a
criação de um algoritmo que apresentasse sugestões de amizades para os
usuários da rede, também conhecido como ‘People You May Know’, o que foi
um sucesso e ajudou com que a rede social se tornasse uma das mais
utilizadas no mundo. 

O algoritmo proposto por Goldman utilizava as
informações disponibilizadas nos perfis dos usuários da rede como, por
exemplo, o colégio onde o usuário cursou o Ensino Médio. Comparando com
os outros usuários, o algoritmo poderia sugerir pessoas que também
estudaram no mesmo colégio, fazendo assim que as pessoas aumentassem seu
número de conexões, proporcionando maiores interações sociais pela
rede. Este é um dos exemplos de como o Cientista de Dados utiliza as
análises de dados do Big Data.

O
cientista de dados vai trabalhar em uma disciplina que podemos chamar
de “Data Science” ou “Ciência dos Dados”. Este é o grande desafio do Big
data nos próximos anos. Ter profissionais capacitados, uma vez que a
tecnologia está evoluindo rápido e não será impeditiva. O gargalo não é
tecnologia, mas gente. À medida que Big Data se insere nas empresas, os
próprios conceitos de gestão, baseados em “orientação a suposições”
passará a ser orientado a fatos. A razão é simples: um imenso volume de
dados permitirá fazermos análises antes inimagináveis sobre dados,
analisando fatos e fazendo previsões com muito mais precisão. 

Estas
análises preditivas demandam uma capacitação que envolve estatística,
matemática e conhecimento de negócios, que é bem diferente das
atividades dos analistas envolvidos com ferramentas de BI hoje, que
estão mais envolvidos em criar gráficos e dashboards para mostrar dados
passados. Hoje a maioria das ações de BI envolvem dados armazenados em
data warehouse ao longo do tempo e apenas conseguem visualizar
retrospectivas. Chegar a análises preditivas é um passo que não se dá de
um dia para o outro.

Como
é uma função nova, claro que surgem definições pouco claras e
profissionais que sabem usar ferramentas de BI começam a se
autointitular data scientists. Para chegar a serem cientistas de dados
precisam demonstrar capacitação adequada para isso e não apenas o
conhecimento de ferramentas de BI. Uma comparação de skills mostra a
diferença. Um profissional de BI geralmente mostra capacitação em
ferramentas como Cognos, data warehouse, uso de SQL e conhecimentos de
bancos de dados relacionais, como SQLServer, Oracle ou DB2.

O cientista
de dados precisa conhecimentos de estatística, matemática, entender do
negócio e ter familiaridade com tecnologias e linguagens como Hadoop e
Pig. Para os profissionais envolvidos com Big Data aparece um novo
desafio que é a modelagem de dados não estruturados. Nos últimos 30 anos
os arquitetos envolvidos com modelagem de dados se especializaram no
modelo relacional, suas regras e técnicas. Por exemplo, temos eliminação
de redundâncias através da normalização como também critérios rígidos
de garantia de integridade referencial. Bancos de dados NoSQL não se
preocupam com duplicação de dados e não exigem regras de integridade
referencial.

Mas,
além do data scientist, existe espaço para outras atividades
profissionais. Por exemplo, haverá forte demanda também por
desenvolvedores e administradores de sistemas que se especializam em
ferramentas voltadas para Big Data, como o Hadoop, tecnologia projetada
para aplicações distribuídas com uso intensivo de dados e utilizadas por
sites bastante conhecidos como o Yahoo, Facebook, LinkedIn e eBay.

Em resumo podemos identificar três perfis básicos de profissionais engajados em Big Data:

a)
Cientistas de dados, como descrevemos acima. Profissionais capacitados
em estatística, ciência da computação e/ou matemática capazes de
analisar grandes volumes de dados e extrair deles insights que criem
novas oportunidades de negócio;

b)
Analistas de negócio que conhecendo bem o negócio em que atuam consigam
formular as perguntas corretas. Analisar as respostas e tomar decisões
estratégicas e táticas que alavanquem novos negócios ou aumentem a
lucratividade da empresa. Estas função tende a ser acoplada às funções
do cientista de dados.

c)
Profissionais de tecnologia que cuidarão da infraestrutura e seu
suporte técnico para suportar Big Data. O aparato tecnológico de Big
Data não é muito comum em empresas tipicamente comerciais, pois demanda
expertise em gerenciar hardware em clusters de alta performance  (Hadoop
é massivamente paralelo) e pensar em volumes de dados
significativamente maior e muito mais variado que comumente se usa em
sistemas tradicionais.

Entretanto,
nos próximos anos viveremos uma escassez destes profissionais, não só
no Brasil, mas no mundo todo. Esta escassez ao mesmo tempo em que abre
muitas perspectivas profissionais para os que abraçarem a função, também
atuará como um entrave, pois dificultará às empresas usarem Big Data
com eficiência. Recentes pesquisas estimam que por volta de 2015 Big
Data demandará cerca de 4,4 milhões de profissionais em todo o mundo e
que apenas 1/3 destes cargos poderá ser preenchido com as capacitações
disponíveis hoje em dia. 

Uma pesquisa mundial da IBM corrobora estes
dados, mostrando que apenas uma em dez organizações acreditam que tenham
profissionais com as capacitações necessárias e que três em cada quatro
estudantes e professores reportam que existe um gap de moderado a
grande entre o que é ensinado hoje e o que o mercado de trabalho
realmente necessita.

Portanto
atuar em Big Data é uma oportunidade inovadora que não aparece com
frequência na vida profissional. Vamos aproveitar? Aliás, porque não
atuar em um trabalho considerado como um dos “sexiest jobs of 21st century”?

 

(*) Cezar Taurion é
diretor de novas tecnologias aplicadas da IBM Brasil e editor do
primeiro blog da América Latina do Portal de Tecnologia IBM
DeveloperWorks

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.