Como quase tudo sobre estatística, o fenômeno da regressão à média é pouco compreendido pelos leigos e muitas vezes causa confusão mesmo entre os “especialistas”. Mas, paradoxalmente, o fenômeno não é complicado e pode ser facilmente apresentado para qualquer pessoa. Muitos autores conjecturam que isso se deve ao fato de “a mente humana não estar condicionada a entender o acaso como uma parte da natureza das coisas” (eu não sou favorável à esta afirmação mas sobre isso falarei em outro momento).
Objetivamente, regressão à média ocorre quando observamos que há uma tendência nos valores observados sejam próximos do valor mais habitual. Dito de outra forma, em uma série de eventos aleatórios, há uma grande chance de que um evento atípico seja seguido por um acontecimento mais corriqueiro. A definição dada neste parágrafo é a que representa o que a regressão a média realmente significa, mas não é suficiente para entender o que ela realmente é.
Regressão à média não se aplica à um pequeno conjunto de dados.
Considere a tabela abaixo. Os valores medidos foram gerados por uma rotina de número aleatórios em R. Digamos que o valor medido seja, por exemplo, o valor da nota de um aluno em matemática. Somando todas as notas e dividindo por 20 obtemos o valor médio igual a 5. A maior nota tirada pelo aluno foi 9 e a menor foi 2.
| prova | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| nota | 4 | 5 | 6 | 7 | 4 | 5 | 3 | 5 | 6 | 5 | 5 | 2 | 2 | 2 | 8 | 7 | 9 | 3 | 3 | 9 |
De acordo com a regressão à média, um evento atípico (distante da média) tem grande probabilidade de ser seguido por um evento próximo da média. Assim, eventos extremos, como 2 e 9, devem ser majoritariamente seguidas por notas 5 ou próximas disto. Observe que na tabela acima, por acaso, a regressão à média não acontece em nenhum momento. O primeiro valor 2 foi seguido por outro 2 que também foi seguido por outro 2, e este último foi seguido por um 8. O primeiro nove foi seguido por um 3. Desta observação podemos concluir que com certeza a regra da regressão à média não pode ser aplicada a um conjunto de números pequenos.
| prova | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| nota | 10 | 0 | 10 | 0 | 10 | 0 | 10 | 0 | 10 | 0 | 10 | 0 | 10 | 0 | 10 | 0 | 10 | 0 | 10 | 0 |
Da tabela acima, vemos um caso de um aluno que tira 10 em uma prova e na prova seguinte sempre tira 0. A média neste caso continua sendo 5. Desta vez a quantidade insuficiente de dados não será uma barreira, pois poderíamos continuar aplicando provas para esse aluno infinitamente e nada mudaria. Novamente, a regressão à media parece não funcionar.
Tendo como base essas observações, só há duas possibilidades: ou a regressão à média não funciona universalmente ou nós cometemos um erro ao confundir a expressão “acontecimento mais corriqueiro” com o valor médio. Há muitas razões para crer que a segunda hipótese seja verdadeira. Observe que na segunda tabela o valor médio nunca aparece. Na primeira tabela, o valor médio é o valor mais frequente, veja o histograma abaixo, porém podemos ver que há uma leve preferência para valores menores que a média. Portanto, precisamos entender o que “corriqueiro” significa no contexto da definição de regressão à média.

Observe que se a maioria dos eventos extremos (no caso da primeira tabela seria 2 e 9) forem seguidos pelo valor médio a contribuição deste valores para a média será distante da média. Porém, se um evento extremo (digamos 10) for seguido por outro evento extremo equidistante da média (digamos 0) a convergência para à média será muito mais rápida, como acontece na segunda tabela. Portanto, podemos concluir que o valor mais corriqueiro pode se confundir com a média mas, nem sempre será igual a ela. No caso da segunda tabela, temos dois valores mais corriqueiros 10 e 0. O termo “corriqueiro” parece estar mais relacionado à frequência do que à média.
Uma vez que entendemos um pouco mais sobre a regressão à média, podemos falar agora sobre suas aplicações.
Qual a utilidade de conhecer a regressão à média?
Um dos exemplos mais ilustrativos da importância de se compreender a regressão à média é a avaliação da eficácia de tratamentos de saúde. A regressão à média explica a necessidade de testes clínicos necessitarem de grupos de controle. Por exemplo, suponha que um novo medicamente esteja sendo testado em uma população de 100 enfermos. Após a aplicação do medicamento, 30 pacientes apresentaram melhoras. Podemos afirmar que o remédio tem uma eficácia de 30%? Não. Talvez, esses 30 pacientes tenham apresentado melhoras por outros fatores não relacionados ao remédio. Precisamos excluir destes 30 pacientes aqueles que melhorariam indecentemente do remédio. Fazemos isso criando grupos de controle com a finalidade de identificar o valor médio real de melhoras sem o remédio.
Considere que outro grupo de 100 enfermos foi selecionado para ser o grupo de controle, ou seja, eles não receberão o remédio. Digamos que desse grupo 10 obtiveram melhora. O valor mais provável para a eficácia do remédio será dado subtraindo o valor dos pacientes que melhoraram com remédio (30) pelos que melhoraram sem ele (10) e dividimos o valor por 90 (pois este é o grupo que não melhoraria sem o remédio). Portanto, a eficácia do remédio seria de 22,2% e não 30%. Sem o grupo de controle temos uma impressão errada sobre a real eficácia de um tratamento.
O mesmo raciocínio pode ser empregado em resultado de exames clínicos. A medição, por exemplo, da pressão arterial de um paciente hipertenso antes de depois de um dado tratamento, não é suficiente para avaliar a eficácia do mesmo. Pois, uma nova medição tenderá em média a ter resultado mais “normais” do que o resultado extremo que motivou o uso do tratamento.
É preciso ter muito cuidado ao usar a regressão a média
Imagine que um professor do ensino fundamental resolveu aplicar por engano uma prova de concurso para medicina veterinária a seus alunos. Por desconhecer os assuntos envolvidos na prova, espera-se que os alunos chutem todas as questões. Assim, a média das notas deveria estar estar em torno de 50% (cada questão tem somente duas alternativas).
O que aconteceria se escolhêssemos os 10% que obtiveram as melhores notas e aplicássemos uma nova prova? A regressão à média diz que as nova média das notas será igual à média antiga 50%. O que é compreensível pois nenhum dos alunos conhece nada sobre o assunto.
Mas, digamos que entre os alunos houvessem um pequeno grupo que não chutou todas as questões pois sabiam a resposta certa de algumas questões. Neste caso, esses alunos teriam uma média de notas superior a 50%. Caso esses alunos sejam selecionados para fazer a segunda prova, não haverá a regressão à média pois a média deste subgrupo é outra.
Regressão à média não é um fenômeno causal
O fato de um resultado ter dado abaixo da média não implica que o próximo será superior. Significa apenas que, para vários resultados abaixo a média, muitos serão acima da média em um novo experimento. O bom desempenho de um aluno logo após um mal desempenho não pode ser afirmado como causado pelo mal desempenho. E da mesma forma, um mal desempenho após um bom desempenho não é necessariamente causado pelo bom desempenho.
Erros comuns
Qual seria a melhor forma de aumentar o desempenho positivo dos alunos? Incentivando os resultado positivos ou reprimindo os resultados negativos (ou os dois ou nenhum deles)? Diferentes educadores dão diferentes respostas para essas perguntas.
Por exemplo, suponha que um aluno tenha um histórico de notas com média igual a 6. Caso eventualmente este aluno venha a tirar uma nota 10, receberá o incentivo do professor pelo bom desempenho. A regressão à media indica que provavelmente as próximas notas serão inferiores a média. Assim, o professor teria chegado a conclusão de que o incentivo atrapalhou o desempenho do aluno. O que é uma conclusão errada pois, como já dissemos, a regressão à média não é um fenômeno causal.
Mas, cuidado! Afirma que a percepção de melhora devido à punição do mal desempenho é equivocada não implica dizer que a punição do mal comportamento não traga alguma melhora. O que estamos dizendo é que essa percepção pode estar um pouco acima da realidade. O mesmo raciocínio se aplica pelo incentivo dado pelo bom desempenho. Afirmar que apercepção de piora após um incentivo por bom desempenho é equivocada não implica dizer que o incentivo pelo bom comportamento possa ser a causa de um mal desempenho.
O fato de que a regressão à medida não implica causalidade não significa que a causalidade não exista.
Não aplique a regressão a média a tudo
Muitos fenômenos da vida cotidiana são aleatórios mas nem todos. Se substituirmos a análise feita no parágrafo acima por uma análise do desempenho econômico de famílias ou empresas poderíamos ter implicações sociais graves. Não podemos simplesmente afirmar que os negócios serão melhores ano que vem simplesmente porque este ano foi ruim. Por isso é preciso ter muito cuidado ao estender questões puramente matemática para causas sociais como educação, saúde e economia. O conceito de regressão para a média pode ser mal utilizado muito facilmente.
Imagem de capa: Photo by Lukas from Pexels
Sugestão de leitura: Rápido e devagar






Deixe um comentário