Nova IA consegue detectar vídeos de deepfake com 98% de precisão
A ferramenta é a primeira a alcançar tamanha precisão e ainda não está disponível para uso público
Se até algum tempo atrás os vídeos ainda eram a última mídia em que se podia confiar que eram uma representação de algo que realmente aconteceu, as tecnologias de inteligência artificial estão mudando isso.
Nos melhores dos casos, vídeos feitos com deepfake podem ser inofensivos como a Ariana Grande cantando música de São João, satíricos como o que mostra ex-presidentes fazendo um duelo de dancinhas de TikTok, emocionantes como o que fez um dueto de Elis Regina e Maria Rita.
Mas a tecnologia de deepfake também pode fazer muita coisa perigosa: colocar palavras nas bocas de políticos, fazer um vídeo de apresentadores de jornais da TV convencendo idosos a apostarem em sites falsos, ou vídeos pornográficos de meninas adolescentes.
Os deepfake são ferramentas de IA que permitem gerar imagens a partir de qualquer comando, inclusive manipulando vozes e rostos reais. Nesta matéria da Super, explicamos a tecnologia detalhadamente.
Agora, pesquisadores da Drexel University College of Engineering, na Pensilvânia, nos EUA, desenvolveram uma tecnologia que permite identificar esses vídeos com uma precisão inédita de 98,3%. Os resultados foram apresentados neste mês na Conferência de Visão Computacional e Reconhecimento de Padrões do IEEE, uma das mais importantes da área.
“É mais do que perturbador que essa tecnologia de vídeo possa ter sido lançada antes que houvesse um bom sistema para detectar falsificações criadas por agentes mal-intencionados”, diz Matthew Stamm, professor da Faculdade de Engenharia da Drexel que liderou o projeto.
Sabe quando você vê uma imagem ou vídeo e percebe que algo ali não está muito certo, e pode ser manipulado? Mesmo que seja cada vez mais difícil para os humanos fazerem isso com vídeos gerados por IA, as máquinas podem ser treinadas para perceber elaborados padrões deixados pelas ferramentas.
As ferramentas do laboratório usam um sofisticado programa de machine learning chamado de rede neural restrita. Elas podem analisar marcas como a variação no padrão de pixels, ordem do espaçamento dos quadros em um vídeo e o tamanho e a compactação dos arquivos. Segundo os criadores, isso faz com que o programa seja hábil tanto na identificação de deepfakes de fontes conhecidas quanto na identificação daqueles criados por um programa previamente desconhecido.
Os programas que já existiam de detecção de manipulação de vídeos não são tão eficazes na detecção de vídeos gerados por IA. Esses programas funcionam tratando um vídeo como uma série de imagens e analisando mudanças de uma imagem para outra. Entretanto, como o vídeo por IA é criado “do zero” e não modificado quadro a quadro, esses programas não estão calibrados para perceber seus indicadores de manipulação. “
“As empresas responsáveis fazem o possível para incorporar identificadores e marcas d’água, mas quando a tecnologia estiver disponível ao público, as pessoas que quiserem usá-la para enganar encontrarão uma maneira. É por isso que estamos trabalhando para ficar à frente deles, desenvolvendo a tecnologia para identificar vídeos sintéticos a partir de padrões e características típicas da mídia.”, diz Stamm.
Stamm diz ainda que espera que a ferramenta possa somar na defesa contra a desinformação, e diz esperar que a medida que esses programas se tornam mais mais fáceis de usar, é razoável esperar que as redes sejam inundadas com vídeos de deepfake.
“Embora os programas de detecção não devam ser a única linha de defesa contra a desinformação – os esforços de alfabetização informacional são fundamentais – ter a capacidade tecnológica de verificar a autenticidade da mídia digital é certamente uma etapa importante.”
A equipe especula que o algoritmo que desenvolveram pode ser bem-sucedido contra vídeos sintéticos porque o programa é projetado para mudar constantemente seu aprendizado à medida que encontra novos exemplos. Ao fazer isso, é possível reconhecer novos rastros forenses à medida que eles evoluem.
Com um pouco mais de treinamento, a ferramenta também conseguia identificar com mais de 90% de precisão o programa usado para criar os vídeos. Isso porque cada programa usa um método exclusivo para produzir as imagens e vídeos, deixando traços específicos.
“Os vídeos são gerados usando uma ampla variedade de estratégias e arquiteturas de geradores”, escreveram os pesquisadores. “Como cada técnica transmite traços significativos, isso torna muito mais fácil para as redes discriminarem com precisão cada gerador.”