Ensemble modeling: a grande inteligência do coletivo

Como modelos combinados, como bagging, boosting ou random forest, podem aprimorar a capacidade preditiva em comparação a modelos individuais

Author Photo
10:28 am - 07 de dezembro de 2019

 

*Por: Rafael de Freitas Souza e Luiz Paulo Fávero

No ano de 2006, a Netflix ofereceu um prêmio de US$ 1 milhão em um concurso, até então, inédito. A companhia compartilhou uma enorme quantidade de dados anônimos sobre as avaliações que os seus usuários deram aos seus filmes (entre uma a cinco estrelas), para que os candidatos do concurso conseguissem a melhor acurácia preditiva para o sistema denominado Cinematch. Os dados somavam mais de 100 milhões de ratings para mais de 17 mil filmes, em um dataset composto por 480.189 clientes.

O Cinematch da época tentava predizer as avaliações, por parte dos usuários da Netflix, de novos filmes com base no que essas pessoas já haviam assistido na plataforma. A ideia do concurso era melhorar em, pelo menos, 10% a capacidade preditiva desse algoritmo.

A parte mais interessante é que os comportamentos dos componentes humanos dos times partícipes do concurso passaram a se assemelhar com a principal premissa dos ensemble models: a predição conjunta – algo semelhante ao vivido por Francis Galton, no século XIX, e que foi narrado por James Surowiecki no livro The Wisdom of Crowds.

Segundo Surowiecki, na Inglaterra do século XIX havia uma espécie de disputa aberta à população para ver quem conseguia acertar o peso de um boi. Galton percebeu que os palpites individualmente considerados dos cidadãos possuíam alta variabilidade, incluindo os “chutes dos experts” da época. Porém, quando todos os palpites eram considerados em conjunto, as estimativas sobre o peso do animal eram supreendentemente próximas da realidade, compreendidas num intervalo de 99% de confiança! Noutras palavras, um grande grupo de pessoas era coletivamente mais inteligente do que uma pessoa individualmente considerada, mesmo que essa pessoa fosse especialista no assunto. É dessa perspectiva narrada que surge a ideia dos ensemble models, que são baseados na noção de modelos combinados. São exemplos de ensemble models aqueles conhecidos por bagging, boosting e random forest.

A combinação de modelos e de tentativas de predição é algo comum no dia a dia e busca, basicamente, diminuir riscos. Em análise última, quando uma companhia elabora e combina cenários para seu planejamento anual, ela busca a diminuição dos riscos do negócio. Quando consultamos diferentes rotas num GPS para saber qual caminho nos levará ao nosso destino e combinamos com nosso conhecimento das vias, buscamos diminuir o risco do gasto de recursos financeiros e de tempo. No caso dos ensemble models, podemos dizer que as buscas pela diminuição dos seus riscos dizem respeito à mitigação das variações da predição dos erros da variável outcome pela combinação de várias estimações de tipo idêntico ou não.

Poderíamos combinar as predições de um modelo linear múltiplo – estimado por mínimos quadrados ordinários – com as predições de uma rede neural ligadas às inferências de um modelo com efeitos fixos e aleatórios – estimado pela máxima verossimilhança restrita. Esses modelos poderiam ser combinados, por que não, a um modelo geograficamente ponderado para melhor direcionar políticas públicas a respeito das questões do acesso à educação. Não para por aí! Na perspectiva dos ensemble models poderíamos, ainda, tomar uma única espécie de modelagem – digamos, uma logística multinomial e, iterativamente, trabalhar com subamostras dos nossos dados originais cujas classificações foram mal especificadas pela primeira modelagem e refinar seus erros até o maior acerto preditivo possível da estimação proposta para, quem sabe, melhor direcionar as campanhas de marketing de determinada companhia. Nesse sentido, a criatividade do modelador é um dos poucos limites, sendo balizada pelos seus fundamentos estatísticos e de programação e pelos seus conhecimentos sobre o negócio em questão.

Nesse momento, há que se haver atenção a dois critérios primordiais. O primeiro ponto a se dar ênfase refere-se à escolha de técnicas que façam sentido para a distribuição e para a escala de mensuração da variável outcome que se deseja investigar. Não há lógica, por exemplo, em se utilizar uma espécie clássica de regressão linear estimada pelos mínimos quadrados ordinários quando o fenômeno que se deseja modelar seja verificado por dados de contagem. Da mesma forma, muito embora seja algo comum, não faz o menor sentido querer modelar os níveis de satisfação dos colaboradores de uma organização, traduzidos como pouco satisfeito, satisfeito ou muito satisfeito em modelos lineares utilizando valores numéricos – e.g. 1, 2 e 3 – como proxies do que eles sentem no momento da avaliação em relação à empresa.

O segundo ponto crucial a se dar atenção no caso dos ensemble models é a questão do overfitting, ou seja, o excesso de treino do algoritmo que, certamente, acarretará numa baixa performance inferencial. Uma possível solução é a utilização de técnicas de cross-validation – e.g. hold-out ou k-fold – e, aqui, não há caminho fácil. Será necessário, portanto, gerar samples de treino e de validação e estimar o modelo por várias vezes até que se verifique em que momento as predições da amostra de teste começam a cair. É ali que, provavelmente, começará a ocorrer o overfitting; portanto, será no momento anterior que seu algoritmo proposto conseguirá apresentar melhor desempenho.

Voltando ao assunto da Netflix, supreendentemente os humanos de vários times passaram a se comportar como os ensemble models e, com o perdão da redundância, a maioria das equipes estabeleceu essa espécie de modelo.

Dois dos times competidores do concurso, BellKor e BigChaos, combinaram seus modelos preditivos e formaram o time BellKor’s Pragmatic Chaos que venceu o torneio. Assim como Galton já imaginava, os times citados, ao se combinarem, perceberam que coletivamente ficariam mais inteligentes e conseguiram superar a meta proposta pela Netflix, elevando o poder preditivo do Cinematch em 10,06%. O prêmio foi entregue no dia 21 de setembro de 2009 e sua história permanece contada em várias páginas da revista científica Chance da American Statistical Association.

Parafraseando um título dos vários artigos a respeito dessa competição, há que se dizer que foi, sem dúvida, uma saga capaz de direcionar carreiras e de inspirar pessoas.

 

Os poetas reclamam que a ciência retira a beleza das estrelas. Mas eu posso vê-las de noite no deserto, e senti-las. Vejo menos ou mais?
Richard Feynman

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.