O uso correto de modelos não supervisionados de Machine Learning na tomada de decisão

Os modelos não supervisionados são muito úteis para redução estrutural nos dados, clusterização da amostra e criação de rankings

Author Photo
2:05 pm - 13 de maio de 2019

Os modelos não supervisionados de machine learning, também conhecidos por modelos exploratórios ou de interdependência, podem ser utilizados em provavelmente todos os campos do conhecimento humano em que o analista ou cientista de dados tenha o objetivo de estudar a relação entre variáveis de determinado banco de dados, sem que haja a intenção de se criarem modelos preditivos, ou seja, sem que seja necessária a elaboração de inferências sobre os achados para outras observações que não as consideradas na análise propriamente dita, visto que modelos ou equações não são estimados para previsão de comportamento dos dados. Essa característica é crucial para diferenciar estes modelos daqueles com aprendizagem supervisionada, como os modelos de regressão simples e múltipla, os modelos de regressão logística binária e multinomial, os modelos de regressão para dados de contagem, os modelos de regressão para dados em painel, entre outros discutidos em meu artigo anterior.

Não existe, portanto, a definição de uma variável preditora em modelos de machine learning não supervisionados e, neste sentido, seus principais objetivos referem-se à redução ou simplificação estrutural nos dados, à classificação ou agrupamento de observações e variáveis, à investigação da existência de correlação entre variáveis métricas ou associação entre variáveis categóricas, à elaboração de rankings de desempenho e ao estabelecimento de data visualization e construção de mapas perceptuais. Estas técnicas são consideradas extremamente relevantes para que se desenvolvam diagnósticos acerca do comportamento dos dados em análise, e, neste sentido, seus mais diversos procedimentos são comumente adotados de forma preliminar, ou até mesmo simultânea, à estimação de modelos supervisionados.

A decisão sobre a técnica utilizada também passa pela escala de mensuração das variáveis disponíveis no banco de dados, que podem ser categóricas ou métricas (ou até mesmo binárias, um caso particular de categorização). O próprio tipo de questionamento, quando do levantamento dos dados, pode fazer, em algumas situações, com que a resposta se dê de forma categórica ou métrica, o que irá privilegiar o uso de uma ou mais técnicas em detrimento de outras. Dessa forma, a definição preliminar, clara e precisa dos objetivos da análise é fundamental para que sejam obtidas variáveis na escala de mensuração adequada à aplicação de determinada técnica que servirá de ferramenta para o atingimento dos objetivos propostos.

A Figura a seguir apresenta a relação entre as escalas de mensuração das variáveis e as principais técnicas de aprendizagem de máquina não supervisionadas.

 

Modelos Não Supervisionados 1

Escalas de mensuração das variáveis e técnicas não supervisionadas

Modelos Não Supervisionados

FONTE: FÁVERO, L.P.; BELFIORE, P. Data Science for Business and Decision Making. Cambridge: Academic Press Elsevier, 2019.

 

Enquanto as técnicas de análise de agrupamentos, ou clusters, cujos procedimentos podem ser hierárquicos ou não hierárquicos k-means, são utilizadas quando se deseja estudar comportamentos semelhantes entre observações (indivíduos, empresas, municípios, países, entre outros exemplos) em relação a determinadas variáveis métricas e eventual existência de clusters homogêneos (agrupamento de observações), a análise fatorial por componentes principais (principal componente analysis, ou PCA) pode ser escolhida como a técnica a ser utilizada quando o intuito principal for a criação de novas variáveis (fatores, ou agrupamento de variáveis) que capturem o comportamento conjunto das variáveis originais métricas. Lembro que a técnica de escalonamento multidimensional, considerada uma extensão natural da análise de agrupamentos, tem por principais objetivos a determinação de posições relativas (coordenadas) de cada observação do banco de dados e a construção de gráficos bidimensionais em que são projetadas essas coordenadas.

Já as técnicas de análise de correspondência são muito úteis quando o pesquisador tem a intenção de estudar eventuais associações entre variáveis e entre suas respectivas categorias. Enquanto a análise de correspondência simples é aplicada para o estudo da relação de interdependência de apenas duas variáveis categóricas, o que a caracteriza como técnica bivariada, a análise de correspondência múltipla pode ser utilizada para um número maior de variáveis categóricas, sendo, de fato, uma técnica multivariada de machine learning não supervisionada.

Conforme já discutimos nesta coluna, o principal erro de modelagem em ambientes corporativos e acadêmicos refere-se à estimação de modelos de aprendizagem não supervisionada sem que se estabeleça um diagnóstico sobre o comportamento das variáveis a serem inseridas na análise. Para citar apenas um exemplo, é extremamente comum que analistas e gestores façam uso, de maneira puramente arbitrária, de outputs oriundos de PCAs elaboradas a partir de variáveis qualitativas ou até mesmo dicotômicas, sem que se deem conta de que o fundamento de qualquer PCA é a existência de correlação entre as variáveis (lembro que a correlação é definida a partir das médias das variáveis, e apenas variáveis quantitativas possuem média!). Para piorar, decisões são tomadas com base nestes resultados…

 

“Hoje entendo bem meu pai. Um homem precisa viajar. Por sua conta, não por meio de histórias, imagens, livro ou televisão.

Precisa viajar por si, com seus olhos e pés, para entender o que é seu. Para um dia plantar suas próprias árvores e dar-lhes valor.

Conhecer o frio para desfrutar do calor. E o oposto. Sentir a distância e o desabrigo para estar bem sob o próprio teto.

Um homem precisa viajar para lugares que não conhece, para quebrar essa arrogância que nos faz ver o mundo como imaginamos e não simplesmente como ele é ou pode ser. Que nos faz professores e doutores do que não vimos, quando deveríamos ser alunos e simplesmente ir ver…

Il faut aller voir – é preciso ir ver! É preciso questionar o que se aprendeu. É preciso ir tocá-lo.”

Amyr Klink – MAR SEM FIM

 

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.