Machine Learning e modelos supervisionados: o uso correto do GLM na tomada de decisão

Um erro muito comum é o uso de modelagem supervisionada sem o estudo do comportamento da variável que será utilizada para fins de previsão

Author Photo
5:20 pm - 19 de abril de 2019

Talvez a mais famosa equação já desenvolvida na história da humanidade seja o modelo proposto por Albert Einstein, E = m.c². Embora Einstein não o tenha formulado exatamente desta forma em seu seminal artigo “A inércia de um corpo depende da sua quantidade de energia?”, publicado no seu annus mirabilis de 1905 no Annalen der Physik, este modelo tornou-se mundialmente famoso por sua simplicidade ao tentar relacionar energia e massa de corpos físicos.

O conjunto de modelos de machine learning conhecidos por técnicas de aprendizagem supervisionadas é muito provavelmente o mais utilizado em análises de dados que procuram entender o comportamento de determinado fenômeno (representado por uma variável chamada de dependente) com base em uma ou mais variáveis potencialmente explicativas, sem que haja, necessariamente, relação de causa e efeito. Desta forma, estes modelos também são conhecidos por técnicas de dependência, em que há a intenção, entre outras, de que sejam estimadas equações que permitam ao pesquisador elaborar previsões com intervalos de confiança. São, portanto, também conhecidas por técnicas confirmatórias. A famosa equação de Einstein é, desta maneira, classificada como um modelo supervisionado.

É bastante comum que alguns dos modelos supervisionados existentes sejam genericamente chamados de modelos de regressão, em homenagem aos trabalhos realizados por Francis Galton e Karl Pearson na tentativa de se estimar uma função linear que procurava investigar a relação entre a altura de filhos e de pais, de modo a se estabelecer uma eventual lei universal de regressão.

Em 1875, Galton teve a ideia de distribuir pacotes de sementes de ervilha doce a sete amigos e, embora cada pacote contivesse sementes com peso uniforme, havia variação substancial entre os diferentes pacotes. Após algum tempo, sementes da nova geração foram colhidas das plantas que brotaram a partir das sementes originais, para que pudessem ser elaborados gráficos que relacionavam os pesos das sementes da nova geração e os pesos das sementes originais. Galton percebeu que os pesos médios das novas sementes geradas a partir de sementes originais com um peso específico descreviam, aproximadamente, uma reta com inclinação positiva e inferior a 1.

Duas décadas mais tarde, em 1896, Pearson publicou seu primeiro rigoroso tratado sobre regressão no Philosophical Transactions of the Royal Society of London. Neste trabalho, Pearson creditou Bravais (1846) por ser o primeiro a estudar as formulações matemáticas iniciais desses modelos, enfatizando que este, embora tivesse se deparado com um método adequado de cálculo, acabou não conseguindo provar que isso proporcionaria o melhor ajuste aos dados. Por meio do mesmo método, porém fazendo uso de avançada prova estatística com base em expansão de Taylor, Pearson acabou por chegar aos valores ótimos dos parâmetros de um modelo de regressão. Em 1911, com a morte de Galton, Karl Pearson tornou-se seu biógrafo e, nesta biografia, descreve, de forma primorosa, como se deu o desenvolvimento para a estimação de parâmetros de um modelo de regressão.

Com o transcorrer do tempo, os modelos de regressão passaram a ser mais estudados e aplicados em diversos campos do conhecimento humano e, com o desenvolvimento tecnológico e o aprimoramento computacional, verificou-se, principalmente a partir da segunda metade do século XX, o surgimento de novos e cada vez mais complexos tipos de modelagem de aprendizagem supervisionada.

A partir do período entre guerras, começam a surgir modelos para fazer frente a situações em que as modelagens lineares normais não se adequavam satisfatoriamente como, por exemplo, os modelos logísticos, os modelos para dados de contagem, os modelos exponenciais e os modelos polinomiais. Todos estes modelos acabaram por ser consolidados, do ponto de vista teórico e conceitual, no que se convencionou chamar de Modelos Lineares Generalizados (Generalized Linear Models, ou GLM), que representam um grupo de modelos lineares e não lineares de aprendizagem supervisionada, em que a variável dependente possui, por exemplo, distribuição normal, Bernoulli, binomial, Poisson ou Poisson-Gama. São casos particulares dos Modelos Lineares Generalizados os seguintes modelos:

– Modelos de Regressão Lineares e Modelos com Transformação de Box-Cox;

– Modelos de Regressão Logística Binária e Multinomial;

– Modelos de Regressão Poisson, Binomial Negativo ou Zero-Inflated para Dados de Contagem;

e a estimação de cada um deles deve ser elaborada respeitando-se as características dos dados e a distribuição da variável que representa o fenômeno que se deseja estudar. Talvez o principal e mais frequente erro de modelagem em ambientes corporativos seja a estimação de modelos preditivos de aprendizagem supervisionada sem que se estabeleça um diagnóstico sobre o comportamento da variável cujos dados serão utilizados para fins de previsão. Por exemplo, muitos analistas e gestores fazem uso, de maneira puramente arbitrária, de outputs de modelos estimados linearmente em situações onde a variável dependente se apresenta de maneira dicotômica ou não métrica. O pior de tudo refere-se às decisões oriundas destes incorretos e viesados resultados!

O vídeo a seguir, desenvolvido por mim em parceria com a Montvero Consultoria e Treinamento, apresenta, de forma prática e didática, as situações em que podem ser utilizados e estimados modelos de aprendizagem supervisionada do tipo GLM.

 

 

Conforme costumava afirmar Ludwig Joseph Johann Wittgenstein, caso não haja cuidado, pode haver uma profunda falta de oxigênio nos mundos corporativo e acadêmico. Neste sentido, além da disponibilidade de dados, de softwares apropriados e de uma adequada teoria subjacente, é de fundamental importância que o pesquisador também faça uso de sua intuição e da sua experiência quando da decisão de estimação de modelos de aprendizagem supervisionada. Isso, acreditem, também poderá gerar modelos interessantes e inovadores para a tomada de decisão!

 

“Avalia-se a inteligência de um indivíduo pela quantidade de incertezas que ele é capaz de suportar.”

Immanuel Kant

 

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.