Covid-19 e Enem: aplicações práticas da estatística Bayesiana

A universidade Imperial College London (ICL) ganhou destaque na mídia brasileira nos últimos meses ao estimar o número de óbitos para COVID-19 ao redor do mundo. O modelo preditivo da universidade londrina utiliza inferência Bayesiana para prever a porcentagem dos infectados pela doença. 

A opção por Bayes em vez da estatística clássica parte da constatação de inúmeras fontes de incerteza para modelagem. Aqui, incerteza é outra forma de dizer que existem condições que podem afetar significativamente a previsão. 

“Podemos listar ao menos três incertezas: nem todo mundo vai pegar a doença; nem todo mundo vai desenvolver os sintomas; nem todo mundo que pegar a doença vai morrer ou precisar de hospitalização”, exemplifica Manuel Galdino, diretor-executivo da Transparência Brasil.

Convencidos disso, para construir um bom modelo preditivo é preciso combinar essas fontes de incerteza. O cálculo deve buscar entender, por exemplo, qual o impacto de um assintomático na taxa de contaminação e como isso afeta o número de mortes. 

O método para combinar as incertezas com inferência clássica é complexo. “Em uma regressão logística para projetar os casos futuros eu precisaria fazer uma simulação para cada uma das possibilidades do intervalo de confiança. Com o resultado dessa operação eu teria que fazer uma nova regressão para descobrir os impactos futuros da doença. O cálculo fica mais complicado, com mais etapas e atribui pesos iguais a fatores que na prática podem ter uma relevância diferente”, explica Manoel Galdino.

Ao contrário do exemplo de Galdino, na estatística Bayesiana trabalha-se com distribuição de probabilidade. Por isso, é mais simples conectar uma incerteza a outra. Não significa que o modelo construído pelo Imperial College seja pouco complexo ou robusto, apenas que escolheu uma metodologia mais viável para o momento.

A partir da página 11 do artigo Estimating COVID-19 cases and reproduction number in Brazil, os cientistas explicam mais detalhadamente o modelo. Também é possível acessar o código utilizado para fazer as estimativas do artigo que projeta os óbitos no Brasil (linguagem R). 

Enem

O objetivo de um teste bem desenhado é estimar a habilidade de cada um dos participantes. Se em uma prova todos os estudantes tiram 8, 9 ou 10 provavelmente a prova foi fácil de mais e não foi possível medir com precisão as habilidades. O mesmo ocorre se todos tiram nota baixa. 

No caso do Exame Nacional do Ensino Médio (Enem), que teve 3,9 milhões de participantes no segundo dia de prova em 2019, usar a metodologia clássica para o teste poderia levar a um cenário de empate em várias notas, além de não conseguir medir adequadamente as habilidades entre os candidatos.

A solução aplicada desde 2009 é usar a Teoria de Resposta ao Item (TRI). A técnica estabelece a dificuldade de cada item de forma circular, ou seja, a complexidade de cada questão é estabelecida após os candidatos responderem o item a partir das taxas de acerto. 

“Na teoria clássica você até pode ter pesos para questões, uma vale 2 pontos e a outra 4. Mas foi o professor quem decidiu essa a diferença. Na TRI a pontuação de cada questão é feita com modelagem estatística”, explica Cristina Graciele, professora e consultora do IBPAD.

Então, a partir das respostas dadas, o modelo da TRI tenta prever quais são os itens que mais discriminam habilidades comparados às outras questões. Basicamente, determinando quais são os itens mais fáceis e os mais difíceis com base no acerto e erro dos candidatos. 

O cálculo também tenta identificar e punir o chute. “O aluno que erra várias perguntas consideradas fáceis sobre o mesmo tema e acerta duas mais difíceis provavelmente chutou. O TRI identifica e atribui menos pontos para o acerto das duas difíceis do que se ele também tivesse acertado as fáceis”, afirma Graciele.  

Em linguagem estatística, o objetivo é entender qual a conexão entre características não observadas na amostra (ex: dificuldades das questões) e sua manifestação na amostra. O modelo preditivo e o resultado não existem sem o cálculo dessa relação. 

Tanto no Enem quanto na previsão do Imperial College London faltaria precisão no resultado ao ignorar o conhecimento a priori (não contido na amostra). Essas características que escapam aos dados coletados ajudam a refletir o real ambiente social e fazer previsões mais adequadas. É nesses casos em que a inferência Bayesiana aparece como uma boa solução metodológica.

As informações deste texto foram retiradas da aula ao vivo O que é estatística Bayesiana e como ela pode ajudar nas Ciências Sociais exibida no canal do YouTube do IBPAD no dia 19 de maio de 2020. Confira abaixo o trecho sobre a explicação da estatística Bayesiana ou acesse o canal do IBPAD para conferir a aula completa:

Covid-19

ENEM

Conheça nosso curso online de Estatística Básica para Comunicadores. Este curso tem como objetivo ampliar o entendimento e capacidade de aplicação de métricas básicas, conceitos estatísticos e gráficos tecnicamente adequados em relatórios, planejamentos e questionamentos envolvendo informações analíticas de campanhas e marcas.

Comentários

comments

Deixe um comentário