Diferença-em-diferenças: a ciência de dados aplicada à avaliação de impactos sociais e políticas públicas

Os modelos de diferença-em-diferenças auxiliam na identificação mais precisa dos efeitos provocados por eventos como o da pandemia da COVID-19

Author Photo
2:45 pm - 01 de maio de 2020

*Por: Wilson Tarantin Junior e Luiz Paulo Fávero

Por vezes, nos questionamos se determinada decisão gera o efeito esperado como, por exemplo, o estabelecimento de uma nova lei ou regra, um programa de treinamento, uma mudança econômica ou social específica, entre outras. No mesmo sentido, nos perguntamos qual o efeito provocado por eventos que muitas vezes não estão sob o controle das pessoas como, por exemplo, eventos naturais e/ou catastróficos. Em comum, nestas diversas situações, está o desejo de se avaliar, medir ou controlar o impacto do evento sobre determinada variável que representa o fenômeno em estudo, denominado de variável dependente, ou variável outcome.

Um modelo estatístico que tem seu desenho alinhado a este contexto de avaliação de impactos é chamado de modelo de diferença-em-diferenças. Se houver condições adequadas para a sua estimação, o modelo pode contribuir para que sejam estimados parâmetros mais precisos e eficientes do efeito provocado pelo evento em análise sobre a variável dependente em estudo.

Os modelos de diferença-em-diferenças originaram-se no campo da econometria, mas a lógica subjacente à técnica foi usada já na década de 1850 por John Snow (não aquele de Game of Thrones) e é chamada de “estudo controlado antes e depois” em ciências sociais.

Para ilustrar, vamos considerar que estamos interessados em avaliar os efeitos provocados por uma mudança na quarentena sobre a disseminação da COVID-19. Também vamos considerar que tal mudança regulatória aplica-se apenas a determinado grupo de pessoas (por exemplo, às pessoas com menos de 25 anos de idade e sem comorbidade), enquanto outro grupo não sofre os efeitos da flexibilização do confinamento, por exemplo, por não se adequar aos critérios regulamentares exigidos. Portanto, neste exemplo, o evento em análise é a própria alteração em determinada regulamentação do ambiente social. Ressaltamos que nós, autores, não somos favoráveis à implantação da flexibilização vertical neste momento de pandemia em nosso país, porém a estamos utilizando apenas como exemplo para fins didáticos.

Em uma primeira abordagem, poderíamos coletar uma amostra com dados ao longo do tempo somente das pessoas que foram afetadas pela mudança regulatória e, assim, comparar a taxa média de evolução da doença em um período posterior à mudança regulatória (que podemos chamar de período pós-evento) com a taxa média de evolução em um período anterior à mudança (que podemos chamar de período pré-evento).

Já numa segunda alternativa, poderíamos coletar uma amostra com dados somente do período posterior à mudança regulatória, porém tanto para as pessoas afetadas pela nova regulação (que podemos chamar de grupo de tratamento) quanto para aquelas que não foram afetadas (que podemos chamar de grupo de controle). Então, poderíamos comparar a taxa média de evolução da COVID-19 para o grupo de pessoas afetadas pela alteração regulatória com aquela observada para o grupo de pessoas que não foram afetadas pela mudança.

Embora sejam opções de análises disponíveis, ambas requerem condições restritivas para que permitam identificar adequadamente o efeito do evento em análise. No primeiro caso, para que a diferença nas taxas médias de evolução da doença represente o efeito causado pelo evento em estudo, é preciso que o único fator que tenha influenciado esta evolução nos grupos de pessoas, entre os dois períodos analisados, seja a própria mudança regulatória. Porém, a taxa média de evolução da doença nas pessoas poderia estar aumentando ou diminuindo, semana a semana, por outros motivos, o que faria com que os efeitos desses outros fatores fossem incorretamente atribuídos à mudança regulatória.

Já no segundo caso, para que a diferença de médias entre os grupos de tratamento e controle represente o efeito causado pelo evento em estudo, é necessário que as pessoas do grupo de tratamento e do grupo de controle apresentassem a mesma taxa média de evolução da doença na ausência da mudança regulatória. Contudo, se já existissem diferenças históricas entre estas taxas nos dois grupos, então tal diferença seria atribuída à mudança regulatória, o que faria com que a estimativa também estivesse incorreta.

O modelo de diferença-em-diferenças pode ser visto como a combinação das duas abordagens anteriores, uma vez que são comparados os indivíduos dos grupos de tratamento e controle, tanto no período pós-evento, quanto no período pré-evento. Neste exemplo, o parâmetro de diferença-em-diferenças representa: i) diferença de médias da taxa de evolução da COVID-19 entre os grupos de tratamento e de controle no período pós-evento; ii) diferença de médias da taxa de evolução da doença entre os grupos de tratamento e de controle no período pré-evento. Assim, a diferença entre i e ii representa a diferença das diferenças. A equação a seguir oferece a especificação da estimativa de forma geral, em que y representa a média da variável outcome:

equação

É importante notar que o grupo de controle desempenha um papel fundamental no modelo de diferença-em-diferenças, pois tem o objetivo de representar um bom contrafactual para o grupo de tratamento. Isto significa que o grupo de controle tem o papel de representar o que teria ocorrido ao grupo de tratamento no período pós-evento, caso este grupo não tivesse sido afetado pelo evento em estudo. Colocando de outro modo, tem o objetivo de representar o que teria ocorrido ao grupo dos tratados caso não tivessem sido tratados (daí a ideia de algo contra os fatos, ou contrafactual).

Em termos práticos, uma das formas utilizadas para buscar evidências sobre a qualidade do grupo de controle é por meio da comparação da evolução temporal da variável outcome (taxa de evolução da COVID-19, no nosso exemplo) para os grupos de tratamento e controle no período pré-evento. Idealmente, as evoluções devem ser paralelas entre os grupos, ou seja, busca-se observar se há “tendências paralelas”. Portanto, são necessários dados em painel longitudinal com mais de um período pré-evento.

O gráfico a seguir ilustra um exemplo das tendências paralelas no período pré-evento, de modo que a linha em vermelho representa a data de ocorrência do evento:

Imagem DiD

As tendências paralelas são fundamentais no período pré-evento, pois indicam que, na ausência do evento, as tendências da variável outcome para os grupos de tratamento e controle seguem as mesmas e, portanto, a estimativa obtida para a diferença-em-diferenças pode representar, de forma mais acurada e mais precisa, o efeito causal do evento em estudo, já que a variação ocorrida fica atribuída ao efeito do próprio evento.

Em resumo, o modelo de diferença-em-diferenças pode ser relevante para a avaliação dos impactos dos eventos de interesse, como mudanças em políticas públicas ou legislações, em períodos de crise extrema ou não. Todavia, para que a estimativa ofereça a interpretação adequada, é importante que a hipótese de tendências paralelas seja verificada.

Recomendamos que todos respeitem as determinações de confinamento, e cuidem-se!

 

Não é mais a Idade Média, é o século XXI. E no século XX, ensaios clínicos randomizados revolucionaram a medicina, permitindo-nos distinguir entre drogas que funcionam e drogas que não funcionam. E você pode fazer o mesmo ensaio clínico randomizado para políticas sociais e públicas. Você pode colocar a inovação social nos mesmos testes científicos rigorosos que usamos para medicamentos. E, dessa maneira, você pode adivinhar a formulação de políticas, sabendo o que funciona, o que não funciona e por quê.

Esther Duflo – Laureada com Prêmio Nobel de Economia em 2019.

 

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.