Predictive analytics para dados de contagem

Modelos tradicionais de regressão por vezes oferecem baixa capacidade preditiva e parâmetros viesados

Author Photo
9:27 am - 27 de junho de 2019

Em diversas situações é comum que a variável outcome sobre a qual temos interesse apresenta-se de maneira quantitativa, com valores discretos e não negativos, ou seja, oferecem dados de contagem.

Imagine, por exemplo, que um analista tenha interesse em estudar a quantidade de vezes que um grupo de pacientes idosos vai ao médico por ano, em função da idade de cada um deles, do sexo e das características dos seus planos de saúde. Um segundo analista deseja estudar a quantidade de ofertas públicas de ações que são realizadas em uma amostra de países desenvolvidos e emergentes em determinado ano, com base em seus desempenhos econômicos, como inflação, taxa de juros, produto interno bruto e taxa de investimento estrangeiro. Note que a quantidade de visitas ao médico ou a quantidade de ofertas públicas de ações são variáveis outcome nas duas situações, sendo representadas por dados quantitativos que assumem valores quantitativos, discretos e não negativos, ou seja, possuem dados de contagem.

Além destes atributos, os dados de contagem também oferecem a característica de existência de determinada exposição, ou seja, as contagens ocorrem em dado período, em dada localidade espacial ou em dada organização, por exemplo. Se houver alteração da exposição, isto é, se os dados não forem coletados de maneira diária, mas, sim, de maneira mensal, por exemplo, a exposição é alterada e, consequentemente, pode ser alterada a forma da distribuição da variável em estudo.

Muitos são os modelos supervisionados de machine learning que podem ser estimados para se estudar o comportamento preditivo de variáveis outcome cujos dados se apresentam na forma de contagem, e os mais comuns são aqueles conhecidos por modelos Poisson e modelos binomiais negativos.

Nos dois exemplos apresentados anteriormente, imagine que a média e a variância da variável outcome, correspondente ao número de visitas ao médico por ano, sejam aproximadamente iguais. Desta forma, poderemos estimar um modelo Poisson. Por outro lado, como a dispersão entre países da quantidade de ofertas públicas de ações poderá ser muito maior do que a média geral, estaremos lidando com o fenômeno de overdispersion, ou superdispersão, na variável outcome e, consequentemente, poderemos estimar um modelo de regressão binomial negativo. A superdispersão é comumente gerada pela presença de maior heterogeneidade nos dados entre as observações da amostra, muitas vezes em consequência de grandes exposições na coleta (maiores períodos de tempo, maiores áreas ou maior quantidade de empresas provenientes de setores ou países díspares).

É importante mencionar que ainda fazem parte dos modelos para dados de contagem os chamados modelos de inflacionados de zeros, cujos parâmetros podem ser estimados quando a variável outcome apresentar uma quantidade considerável de valores de contagem iguais a zero. Estes modelos são bastante utilizados, por exemplo, para identificação e prevenção de fraudes e lavagem de dinheiro.

Recomendo, quando estivermos trabalhando com dados de contagem, que iniciemos a estimação dos parâmetros por meio de um modelo Poisson, devido à sua maior simplicidade. Neste caso, a variável outcome do modelo apresentará média estatisticamente igual à variância (existem testes bastante robustos à verificação da existência de superdispersão nos dados, como o teste de Cameron e Trivedi). Por outro lado, quando a variância da variável outcome for estatisticamente maior do que sua média, ou seja, quando houver superdispersão nos dados, trabalharemos com a estimação de um modelo binomial negativo.

A figura a seguir apresenta, de maneira ilustrativa, uma variável outcome sem superdispersão (propensão à estimação de um modelo Poisson) e outra com superdispersão (propensão à estimação de um modelo binomial negativo).

 

Figura Contagem 1

Exemplos de variáveis outcome sem e com superdispersão

Figura Contagem

FONTE: FÁVERO, L.P.; BELFIORE, P. Data Science for Business and Decision Making. Cambridge: Academic Press Elsevier, 2019.

 

Os modelos supervisionados de machine learning dos tipos Poisson e binomial negativo inserem-se no contexto dos Modelos Lineares Generalizados (GLM – Generalized Linear Models), conforme discutido no artigo desta coluna intitulado Machine learning e modelos supervisionados: o uso correto do GLM na tomada de decisão, e podem ser estimados corretamente por meio de scripts apropriados em toolboxes como Python, R, Java, Stata, SAS, SPSS, entre outros.

Ao contrário da tradicional técnica de regressão estimada por meio de métodos de Mínimos Quadrados, os modelos para dados de contagem são estimados por Máxima Verossimilhança, e a escolha da melhor estimação depende da distribuição da variável outcome, da relação entre sua média e variância e do objetivo do estudo, com base na teoria subjacente e na experiência do analista e do tomador de decisão.

Como a variável outcome apresenta-se de maneira quantitativa, é muito comum, em ambientes acadêmicos e organizacionais, que pesquisadores, analistas e cientistas de dados não estudem a sua distribuição e, consequentemente, estimem por mínimos quadrados o modelo preditivo, obtendo inclusive outputs. Este procedimento está incorreto, já que poderão ser estimados parâmetros viesados e modelos com menor capacidade preditiva. Porém, infelizmente, este erro é bem mais comum do que parece, e encontro-o com frequência sendo cometido por profissionais de equipes de CRM, modelagem e analytics de empresas dos mais diversos portes e atuantes nos mais diversos segmentos.

 

Devemos muito aos indianos, que nos ensinaram a contar, técnica sem a qual nenhuma descoberta científica relevante poderia ter sido feita.

Albert Einstein

 

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.