Crise de replicabilidade: o problema discreto que assola a ciência
Se outros cientistas, em outro laboratório, replicam seu experimento e ele dá certo, é sinal de solidez. Acontece que muitos estudos não andam se repetindo satisfatoriamente. E isso é sintoma de um revés maior.
Em 2008, o psicólogo Stuart Vyse e sua aluna Alissa Wyman convocaram um grupo de 52 jovens entre 18 e 22 anos e entregaram dois textos a cada um deles. O primeiro descrevia o mapa astral da pessoa – com seu signo do zodíaco, seu ascendente, sua Lua etc.
O segundo falava de um mapa aleatório, de alguém nascido em outra data e hora. Então, eles perguntaram aos voluntários qual dos textos eles achavam que era o certo. Apenas 46% acertaram, ou seja: mais pessoas se identificaram com o texto falso do que com o verdadeiro.
Para fins de comparação, Vyse e Wyman repetiram o experimento – mas, desta vez, usando textos fornecidos por um teste de personalidade de eficácia comprovada, que é tido como padrão-ouro na psicologia contemporânea.
Resultado: 79% dos participantes souberam distinguir a descrição verdadeira da falsa. O que esses resultados demonstram, obviamente, é que o teste é eficaz em determinar a personalidade das pessoas – enquanto o mapa astral é aleatório.
Não citei esse estudo para provocar os místicos de plantão, mas porque ele é ótimo para explicar o conceito de valor-p – que é imprescindível para entender pesquisas científicas, mas um tanto desconhecido fora do meio acadêmico.
O valor-p do experimento com os mapas astrais foi 0,57, o que significa que há 57% de chance de que os resultados se devam ao acaso, de que sejam falsos positivos.
Por outro lado, o valor-p do experimento com os testes de personalidade foi menor que 0,001. Portanto, há menos de 0,1% de chance de que a taxa de acerto de 79% tenha sido mera sorte. E, portanto, mais de 99% de chance de que as pessoas realmente tenham identificado suas descrições. (1)
Em geral, os cientistas adotam um valor-p de 0,05 como controle de qualidade. Esse 0,05 equivale a 5% (para obter as porcentagens, basta multiplicar o valor-p por 100). Em outras palavras, se há mais de 5% de chance de que seus resultados sejam mero acaso, é melhor ter cautela.
O valor-p é uma medida da nossa tolerância a falsos positivos. Um valor-p de 0,3 para o horário de passagem do caminhão de lixo não é tão grave, mas, se você é um físico de partículas, é bom ser mais criterioso.
O estudo de Wyse e Wyman tem limitações – como o número pequeno de participantes. Mas, em linhas gerais, suas conclusões são sólidas, e o mais importante: são as mesmas de outros estudos sobre a eficácia da astrologia, realizados desde os anos 1980. A replicação é imprescindível. Só podemos nos assegurar de que o resultado de um experimento vale se ele dá o mesmo resultado toda vez que é repetido.
Em geral, porém, estudos que dão o que falar na mídia – como “abacate aumenta a longevidade” ou “tal tratamento contra o câncer tem 91% de eficácia” – não têm resultados tão simples de interpretar. Como pegar uma amostra de milhares de pessoas e identificar os efeitos de um só alimento dentre todas as outras variáveis possíveis na rotina de alguém?
Nem sempre os valores-p e outros indicadores são sólidos, e nem todo estudo adota garantias de qualidade básicas, como ensaios clínicos duplo-cegos (ou seja, em que nem os pesquisadores nem os voluntários sabem quem está tomando o placebo, para evitar favoritismo) e outras formas de separar o joio do trigo nos dados.
Para não falar em armadilhas comuns, como a confusão entre correlação e causação – isto é, saber se duas coisas aconteceram ao mesmo tempo por coincidência ou porque, de fato, há um laço entre elas.
É preciso muito controle sobre diversas variáveis (idade, peso, histórico médico etc.) para determinar, por exemplo, quando o consumo de gordura ou açúcar estão mesmo associados a uma certa doença e quando isso é um mero acaso estatístico.
Diante de tantos potenciais deslizes, em qual parcela dos estudos científicos podemos confiar? Só tem um jeito de saber: repetir os experimentos e ver se eles conferem.
Em 2015, um mutirão de pesquisadores ativistas liderados por Brian Nosek do Centro para Ciência Aberta revelou que, de uma amostra de 100 estudos em psicologia, 97 traziam valores-p significativos, mas só 36 replicações chegaram a resultados equiparáveis. Ou seja: quase dois em cada três artigos publicados se provaram capengas. (2)
Nosek repetiu o trabalho ao longo dos anos seguintes – desta vez, refazendo 193 experimentos sobre câncer, descritos em 53 artigos científicos publicados entre 2010 e 2012. Eles só conseguiram replicar 50 experimentos de 23 artigos. (3)
Esse é um problema conhecido como crise de replicação. E a comunidade acadêmica precisa identificar e combater suas origens para preservar a qualidade da ciência e a confiança da população nos cientistas (que nunca esteve tão abalada por notícias falsas e negacionismo).
Um problema é que bolsas de pós-graduação, financiamento para pesquisas e outras necessidades básicas do mundo acadêmico são distribuídas de acordo com critérios como o número de artigos que você publica e o número de vezes que cada um deles é citado pelos colegas.
Isso é um incentivo para que os pesquisadores sejam sensacionalistas: é melhor publicar um resultado fraco do que não publicar, e descobertas contraintuitivas (que são, evidentemente, mais raras) são mais atraentes para os editores dos periódicos famosos, que rendem citações. No afã de emplacar um artigo, há inclusive maneiras de hackear o valor-p, forçando-o artificialmente para baixo.
Dar um tapinha conveniente nas estatísticas, diga-se, não é algo tão raro quanto deveria ser. Em um questionário anônimo enviado a 2 mil pesquisadores da área de psicologia em 2012, 38% admitiram já ter excluído dados propositalmente após calcular que eles teriam o efeito de tornar o resultado menos notável.
16% confssaram já ter interrompido uma coleta de dados antes do planejado porque já haviam obtido os resultados que desejavam. (4)
“Muitos estudos não replicáveis foram publicados por causa da preferência dos periódicos por achados contraintuitivos em vez de estudos menos surpreendentes”, escreveu a psicóloga Ellen Winner, do Boston College, em 2017. E na categoria “menos surpreendente”, claro, se encaixam as replicações, que não rendem audiência, mas são imprescindíveis para separar o lixo do luxo e manter a ciência saudável, em constante autorrevisão.
“A pesquisa não é mais algo que as pessoas fazem por curiosidade. […] Elas precisam publicar artigos a cada poucos meses ou suas carreiras vão ralo abaixo”, escreve a autora Judith Harris. “A solução é parar de recompensar as pessoas pelo quanto elas publicam.” Qualidade, afinal, é melhor que quantidade. Se esse princípio funcionou para Newton e Darwin, deve funcionar para nós.