Se não for pra causar, nem correlaciono

“As estatísticas não mentem, mas existem muitos mentirosos usando estatísticas” é uma citação antiga do mundinho estatístico. À turma dos mentirosos, eu costumo acrescentar os desinformados (que ainda não aprenderam a analisar) e os afobados (os que querem concluir antes de analisar de fato).
Um ponto onde o time dos afobados ganha destaque é na confusão entre correlação e causalidade.
Apesar de ser básico na Estatística, em algumas áreas, como a comunicação, o conceito de correlação – mensurar a relação entre variáveis – ainda é pouco usado. E, quando usado, não raro acompanha algumas análises distorcidas.

Um exemplo, que costumo dar em minhas aulas, é o do gráfico ao lado.

As linhas mostram que em alguns meses, com janeiro e dezembro o número de afogamentos é maior. Assim como as vendas de sorvete. Ambos têm um leve pico em julho, mas sem atingir os patamares de jan/dez. Ou seja, as vendas de sorvete são maiores nos meses que temos mais afogamentos. Está graficamente evidente que existe uma correlação entre as 2 informações. Isto significa que se eu vender mais sorvete, mais gente vai morrer afogada? Eu e os fabricantes de sorvete esperamos que não!

Quando realizamos análises da correlação, estamos utilizando ferramentas analíticas fundamentadas nos dados. Cabe ao analista expandir esta informação para o negócio da empresa ou situação da análise. Em termos chulos: o excel pode até te dar os resultados, mas o bom-senso fica por conta e risco mesmo!

O gráfico indica que as linhas têm variações correlatas e o índice de correlação calculado é bastante alto (o valor máximo possível é 1). Então, sim, podemos afirmar que as 2 variáveis são altamente correlacionadas. Mas, a metodologia é para mensurar correlação e não causalidade, desta forma, não podemos afirmar que o aumento no valor de uma implica no aumento da outra.

Maaaaaas, se há causalidade há correlação! Então, a análise de correlação, não prova, mas, é um indício de causalidade.

Para analisar causalidade é necessário realizar um teste controlado, onde isolamos o efeito de uma variável para verificar se uma é causa da outra. Tal como é feito em testes de remédios, onde uma parte das cobaias usa o princípio ativo e outra usa um placebo. Analogamente, no exemplo do gráfico, eu teria que proibir uma parte da população de comprar sorvete e verificar, depois de meses de experimento, se a taxa de afogamentos foi menor na turminha que ficou passando vontade. Loucura né?

Pois é, assim como nem todos os dias podemos cometer loucuras, nem sempre é possível validar a causalidade….

Por isto, como qualquer decisão baseada em indícios, quanto mais indícios tivermos mais seguros para “apostar” em uma resposta. E quando falamos de indícios, não são somente numéricos, o “conhecimento de causa” (aqui sem ser afobada de análise, só usando a expressão comum mesmo ?) é fundamental.

Não é difícil concluir que há uma causa em comum entre as 2 variáveis analisadas: a temperatura. Quanto mais calor, mais pessoas fazem a alegria dos vendedores de sorvetes e, também, mais pessoas estarão nas praias, rios e piscinas, portanto mais pessoas estão correndo risco de afogamento. As férias escolares também são fatores impactantes: julho é mais frio que maio, mas um número maior de pessoas está curtindo as férias, refrescando o popozão na água ou se chocando com o preço dos sorvetes na praia (mas comprando mesmo assim, pq afinal, férias né!?…)

Um outro ponto que faz afobados concluírem que há uma relação de causa é ignorar o que chamamos de covariáveis, aquelas que não temos interesse direto na análise, mas que podem interferir no resultado.

Exemplificando: Imagine que a nova moda nas academias é um novo treino aeróbico que promete eliminar até 4kg por semana (#sonhomeu à o efeito, e não uma nova moda de treino, que nem me recuperei do crossfit ainda!).

Para mostrar como o treino é “top”, uma academia divulgou um gráfico com o resultado que seus alunos conseguiram com o treino vs a frequência semanal deles.

Isto seria suficiente para provar que o treino dá mais resultado que comercial de Polishop e que se for bem disciplinado, malhando mais dias da semana, é resultado garantido ou seu dinheiro de volta?

Eis que, empolgado com a novidade, um aluno comilão (que, assim como eu, deve ter o ascendente em touro) foi o senhor motivação da malhação: sem matar treinos, batendo o cartão 4 vezes por semana na academia. Nosso infeliz motivado não emagreceu quase nada. Ele poderia ser um outlier mesmo, afinal este é o resultado médio, então alguns perderão mais peso e outros menos. Mas também pode haver uma covariável aí…

Só que, o nosso infeliz comilão, além de motivado, é um fã de dados

É sabido (alerta para conhecimento empírico meu, sem análise para sustentação) que os “ratos de academia” também são os mais disciplinados com alimentação. Enquanto nosso infeliz motivado saía esbaforido do treino e partia para aquele prato “eu mereço”, os “ratos de academia”, que serviram de base para o gráfico de divulgação, seguiam comendo ovo, frango e batata-doce nas suas mais diversas variações.

Analisando os dados, ele descobriu que existia uma enorme diferença entre os grupos: 80% daqueles que treinaram 3 a 4 vezes por semana seguiam uma dieta restrita em carboidratos, enquanto no grupo que só treinava 1 vez na semana este percentual beirava os 10%. Sabendo disto, é possível concluir que o treino é “top”?

Sabendo que a alimentação impacta fortemente na perda de peso, não podemos analisar o efeito de nenhuma outra variável na balança, sem isolar o efeito do cardápio dos participantes. Neste caso, se os 20% que não restringe carboidratos, do grupo que treinou 3 a 4 vezes, tiver perdido muito mais peso que o grupo que treinou somente 1 vez, aí sim temos uma evidência forte de que estamos falando de um treino “topzera”.

Não posso deixar de falar que, para qualquer conclusão, espera-se que estes grupos sejam formados de um número robusto de alunos. Porque se tiver, por exemplo, meia dúzia de gatos pingados em cada grupo, aí voltamos para o achismo e deixamos a Estatística de lado. Assim como podemos deixar a Estatística de folga caso o intuito seja analisar relações sem sentido…

Há quem não apareça se não for pra causar (eu vou, causando ou não, o importante é estar na rua, porque sou sagitariana – se tiver comida então, meu ascendente garante inclusive a prioridade entre os compromissos)

Minha adaptação para esta frase seria: se não tiver por que haver uma relação causa/efeito, eu nem correlaciono….

Correlação é um dos temas do curso Estatística Básica para Comunicadores que é um dos cursos que faz parte de nossa Formação em Data Intelligence.

postrelacionados

Comentários

comments

Deixe um comentário