Klick Labs, a divisão de pesquisa da Klick Health com sede em Toronto, introduziu um novo método para distinguir entre clipes de áudio gerados por humanos e por IA. Esse desenvolvimento ocorre em meio a um aumento no conteúdo deepfake, que inclui vídeo, áudio e imagens produzidos por IA que imitam indivíduos reais.
A proliferação de deepfakes foi acelerada pelo advento de chatbots avançados de IA, de alta tecnologia. geradores e replicadores de voz de qualidade, como os oferecidos pela Elevenlabs e Truecaller. Figuras de destaque como Taylor Swift, o Presidente Joe Biden e o Papa foram todos alvo destas falsificações sofisticadas. A Europol projetou que até 2026, até 90% do conteúdo online poderá ser gerado sinteticamente , um sentimento ecoado pelo Serviço Canadense de Inteligência de Segurança, que classificou a situação como uma ameaça significativa.
Golpes recentes de clonagem de voz têm ressaltou a urgência de desenvolver métodos confiáveis de detecção de deepfakes. Em resposta, a Meta introduziu rótulos obrigatórios para conteúdo gerado por IA, e a Comissão Federal de Comunicações decidiu que vozes falsas em chamadas automáticas são ilegais. Especialistas em políticas públicas e IA estão particularmente preocupados com o aumento potencial no uso de deepfakes antes das eleições presidenciais dos EUA.
Inspiração tecnológica e metodologia
Yan Fossat, vice-presidente sênior de pesquisa e desenvolvimento em saúde digital da Klick Labs , inspirou-se na ficção científica para abordar esta questão. Fazendo referência a filmes como “O Exterminador do Futuro” e “Blade Runner”, Fossat e sua equipe imaginaram uma ferramenta semelhante à máquina Voight-Kampff, que mede respostas fisiológicas para determinar a autenticidade. Os resultados desta abordagem foram publicados na revista de acesso aberto JMIR Biomedical Engineering detalhando as descobertas do Klick Labs.
Em seu laboratório em Toronto, Fossat e sua equipe começaram a fazer experiências com análise de voz. Eles reuniram amostras de áudio de 49 indivíduos com diversos sotaques e origens e geraram clipes sintéticos usando um gerador deepfake. Esses clipes foram então examinados em busca de biomarcadores vocais – características distintivas em vozes que revelam informações sobre a saúde ou fisiologia do locutor.
O Klick Labs identificou 12.000 biomarcadores vocais, mas seu método de detecção atual depende de cinco marcadores específicos: fala duração, variação, micropausas, macropausas e a proporção de tempo gasto falando versus pausando. As micropausas são breves pausas de menos de meio segundo, enquanto as macropausas são mais longas. Essas pausas ocorrem naturalmente na fala humana à medida que as pessoas respiram ou procuram palavras.
Desafios e perspectivas futuras
Apesar de alcançar uma taxa de sucesso de 80% na identificação de deepfakes , a Fossat reconhece o desafio de acompanhar a rápida evolução da tecnologia de IA. Por exemplo, os recentes avanços da OpenAI na geração de deepfakes vocais que simulam microrrespirações tornaram a detecção mais complexa. No entanto, Fossat permanece otimista, observando que milhares de outros biomarcadores, como a frequência cardíaca, poderiam ser aproveitados para futuros métodos de detecção.
A pesquisa da Klick Labs vai além da detecção de deepfake. Eles estão conduzindo outros 16 estudos sobre biomarcadores vocais e doenças, incluindo um estudo publicado em Mayo Clinic Proceedings: Digital Health, que demonstrou um modelo de IA capaz de detectar diabetes tipo 2 com alta precisão usando apenas 10 segundos de dados de voz. Esta pesquisa continuará em colaboração com o Humber River Hospital, em Toronto, levando potencialmente a ferramentas de diagnóstico baseadas em telefone.