Klick Labs, dział badawczy firmy Klick Health z siedzibą w Toronto, wprowadził nowatorską metodę rozróżniania klipów audio generowanych przez ludzi i sztuczną inteligencję. Rozwój ten następuje w związku ze wzrostem liczby fałszywych treści, które obejmują wideo, dźwięk i obrazy imitujące prawdziwe osoby wytworzone przez sztuczną inteligencję.
Rozpowszechnianie się fałszywych treści zostało przyspieszone wraz z pojawieniem się zaawansowanych chatbotów AI, zaawansowanych wysokiej jakości generatory i replikatory głosu, takie jak te oferowane przez Elevenlabs i Truecaller. Celem tych wyrafinowanych fałszerstw były znane osobistości, takie jak Taylor Swift, prezydent Joe Biden i papież. Europol prognozuje, że do 2026 r. nawet 90% treści online będzie można wygenerować syntetycznie , opinię tę powtarza Kanadyjska Służba Wywiadu Bezpieczeństwa, która określiła tę sytuację jako poważne zagrożenie.
Niedawne oszustwa polegające na klonowaniu głosu podkreśliło pilną potrzebę opracowania niezawodnych metod wykrywania deepfake’ów. W odpowiedzi Meta wprowadziła obowiązkowe etykiety dla treści generowanych przez sztuczną inteligencję, a Federalna Komisja Łączności orzekła, że fałszywe głosy w automatycznych połączeniach są nielegalne. Eksperci ds. polityki publicznej i sztucznej inteligencji są szczególnie zaniepokojeni potencjalnym wzrostem wykorzystania deepfake’ów w okresie poprzedzającym wybory prezydenckie w USA.
Inspiracje i metodologia technologiczna
Yan Fossat, starszy wiceprezes ds. badań i rozwoju cyfrowego zdrowia w Klick Labs , aby rozwiązać ten problem, czerpał inspirację z science fiction. Odnosząc się do filmów takich jak „Terminator” i „Łowca androidów”, Fossat i jego zespół wymyślili narzędzie podobne do maszyny Voighta-Kampffa, które mierzy reakcje fizjologiczne w celu ustalenia autentyczności. Wyniki tego podejścia opublikowano w ogólnodostępnym czasopiśmie JMIR Biomedical Engineering, szczegółowo opisując ustalenia Klick Labs.
W laboratorium w Toronto Fossat i jego zespół rozpoczęli eksperymenty z analizą głosu. Zebrali próbki audio od 49 osób o różnych akcentach i pochodzeniu i wygenerowali syntetyczne klipy za pomocą generatora deepfake. Następnie klipy te zbadano pod kątem biomarkerów wokalnych – charakterystycznych cech głosu, które ujawniają informacje o zdrowiu lub fizjologii mówiącego.
Firma Klick Labs zidentyfikowała 12 000 biomarkerów wokalnych, ale ich obecna metoda wykrywania opiera się na pięciu konkretnych markerach: mowie długość, zmienność, mikropauzy, makropauzy oraz proporcja czasu poświęconego na mówienie w porównaniu z pauzami. Mikropauzy to krótkie przerwy trwające krócej niż pół sekundy, natomiast makropauzy są dłuższe. Te przerwy pojawiają się naturalnie w ludzkiej mowie, gdy ludzie oddychają lub szukają słów.
Wyzwania i perspektywy na przyszłość
Pomimo osiągnięcia 80% wskaźnika skuteczności w identyfikowaniu deepfakes Fossat zdaje sobie sprawę, że dotrzymanie kroku szybko rozwijającej się technologii sztucznej inteligencji stanowi wyzwanie. Na przykład ostatnie postępy OpenAI w generowaniu głębokich fałszywych dźwięków wokalnych symulujących mikrooddechy sprawiły, że wykrywanie stało się bardziej złożone. Jednakże Fossat pozostaje optymistą i zauważa, że tysiące innych biomarkerów, takich jak tętno, można wykorzystać w przyszłych metodach wykrywania.
Badania Klick Labs wykraczają poza wykrywanie fałszywych informacji. Prowadzą 16 innych badań dotyczących biomarkerów i chorób głosu, w tym badanie opublikowane w Mayo Clinic Proceedings: Digital Health, w którym zademonstrowano model sztucznej inteligencji umożliwiający wykrywanie cukrzycy typu 2 z dużą dokładnością przy użyciu zaledwie 10 sekund danych głosowych. Badania te będą kontynuowane we współpracy ze szpitalem Humber River Hospital w Toronto i potencjalnie zaowocują opracowaniem telefonicznych narzędzi diagnostycznych.