Trilha do conhecimento: formando cientistas de dados

Confira como ser o cientista de dados que toda empresa necessita e ser bem sucedido na indústria 4.0

Author Photo
10:20 pm - 06 de março de 2019

Em meu último artigo, discuti o quão raro e difícil é se tornar um cientista de dados com características de unicórnio, ou seja, com perfil simultâneo de programadores, analistas e tomadores de decisão. Recebi mensagens de pessoas com as mais diversas formações e atuações em todo o país, com perguntas sobre como se tornar um cientista de dados e qual a trilha do conhecimento a ser percorrida para que se atinja tal finalidade.

Uma estudante do último ano de graduação em Engenharia Civil de uma faculdade de Fortaleza me chamou a atenção. Ela me disse que tem facilidade com números, cálculo, programação computacional e estatística, mas tem dificuldades para estruturar um planejamento a médio prazo para obtenção de conhecimentos que a permitam se tornar uma cientista de dados dentro de uma estrutura lógica e didática de formação. É, de fato, um desafio, e esta dúvida recorrente representa a angústia de muitos profissionais que querem entrar no mundo da Ciência dos Dados.

Por onde começar? Quais ferramentas ou técnicas deve-se aprender primeiro? Qual o roteiro de aprendizado? Instigado por estas dúvidas, apresento, na figura a seguir, uma modesta proposta de trilha do conhecimento, ou plano de aprendizado, que pode ser usada nesta jornada para a formação de cientistas de dados. Embora possam existir trilhas com maior profundidade e/ou amplitude de conhecimentos, acredito que nossa humilde trilha seja adequada do ponto de vista didático e de aprofundamento gradativo dos conhecimentos, além de requerer prazos para percorrê-la não tão exacerbados.

 

Trilha para Cientista de Dados 1

Trilha para Cientista de DadosFONTES:

Adaptado de Chandrasekaran, S. Pragmatic Perspectives. Blog, 2013.

Adaptado de Fávero, L. P.; Belfiore, P. Data Science for Business and Decision Making. Cambridge: Academic Press Elsevier, 2019.

 

Optei por estruturar a trilha em oito estágios: Introdução, Estatística, Introdução a Softwares, Machine Learning, Data Visualization, Text Mining, Big Data e Outras Toolboxes. Caso outros softwares comerciais ou técnicas de modelagem não presentes nesta trilha sejam de fundamental importância para a sua formação individual em determinada situação, vá em frente! Nossa modesta trilha deve ser sempre complementada!

Embora a trilha proposta apresente certa lógica educacional e ofereça uma natural evolução da erudição, não é raro encontramos profissionais em diferentes estágios da trilha que não percorreram, ainda, estágios considerados anteriores. Uma situação clássica corresponde àqueles profissionais ou estudantes que possuem conhecimento avançado, por exemplo, em Python, mas que têm dificuldades para implementar uma Principal Component Analysis para, por exemplo, criar rankings escolares de qualidade de ensino, ou para estimar e interpretar outputs de um modelo de Regressão Logística Multinomial (dentro do que chamamos de GLM) para, por exemplo, escorar probabilidades em modelos de risco de crédito.

A proposta é que cada um percorra progressivamente a sequência apresentada dentro de cada tópico, porém, a depender de demandas organizacionais ou acadêmicas, além dos próprios anseios e objetivos de cada cientista, maior foco pode ser dado a um ou mais pontos da trilha, em detrimento de outros. A natureza multidisciplinar da trilha é inerente ao processo. Uma coisa é certa: ninguém vai se tornar um cientista de dados da noite para o dia!

 

 “Quando uma criatura humana desperta para um grande sonho e sobre ele lança toda a força de sua alma, o universo passa a conspirar a seu favor.”

Johann Wolfgang von Goethe

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.