A Klick Labs, a Klick Health torontói székhelyű kutatási részlege egy új módszert vezetett be az ember és a mesterséges intelligencia által generált hangklipek megkülönböztetésére. Ez a fejlemény a mélyhamisítású tartalom felfutása közepette következik be, amely AI által készített videókat, hangokat és képeket tartalmaz, amelyek valódi személyeket utánoznak.

A mélyhamisítások elterjedését felgyorsította a fejlett mesterséges intelligencia chatbotok megjelenése. minőségi hanggenerátorok és replikátorok, mint amilyeneket az Elevenlabs és a Truecaller kínál. Az olyan nagy horderejű személyeket, mint Taylor Swift, Joe Biden elnök és a pápa, mind célba vették ezek a kifinomult hamisítványok. Az Europol előrejelzése szerint 2026-ra az online tartalom akár 90%-a is szintetizálható lesz. , ezt a véleményt a Kanadai Biztonsági Hírszerző Szolgálat, amely a helyzetet jelentős fenyegetésnek minősítette.

A közelmúltban történt hangklónozással kapcsolatos csalások hangsúlyozta a megbízható mélyhamisítás-észlelési módszerek kifejlesztésének sürgősségét. Válaszul a Meta kötelező címkéket vezetett be a mesterséges intelligencia által generált tartalmakra, a Szövetségi Kommunikációs Bizottság pedig kimondta, hogy a mélyhamis hangok a robothívásokban illegálisak. A közpolitika és a mesterséges intelligencia szakértőit ​​különösen aggasztja a mélyhamisítások lehetséges növekedése az amerikai elnökválasztás előtt.

Technológiai inspiráció és módszertan

Yan Fossat, a Klick Labs digitális egészségügyi kutatásért és fejlesztésért felelős alelnöke , sci-fiből merített ihletet a probléma megoldásához. A „Terminator” és a „Blade Runner”-hez hasonló filmekre hivatkozva Fossat és csapata a Voight-Kampff géphez hasonló eszközt képzelt el, amely a fiziológiai válaszokat méri a hitelesség megállapítására. Ennek a megközelítésnek az eredményeit tették közzé a JMIR Biomedical Engineering nyílt hozzáférésű folyóiratban, amely részletezi a Klick Labs eredményeit. p>

Torontói laboratóriumukban Fossat és csapata kísérletezni kezdett a hanganalízissel. Hangmintákat gyűjtöttek 49, változatos akcentussal és hátterű személytől, és szintetikus klipeket generáltak egy deepfake generátor segítségével. Ezeket a klipeket ezután alaposan megvizsgálták, hogy keressenek-e vokális biomarkereket – a hangok megkülönböztető jegyeit, amelyek a beszélő egészségi állapotáról vagy fiziológiájáról árulnak el információkat.

A Klick Labs 12 000 vokális biomarkert azonosított, de a jelenlegi kimutatási módszerük öt konkrét markerre támaszkodik: a beszédre. hossza, variáció, mikroszünet, makropauza, valamint a beszéddel és a szünettel töltött idő aránya. A mikropauszok fél másodpercnél rövidebb szünetek, míg a makropauszok hosszabbak. Ezek a szünetek természetesen előfordulnak az emberi beszédben, amikor az emberek levegőt vesznek, vagy szavakat keresnek.

Kihívások és jövőbeli kilátások

Annak ellenére, hogy a mélyhamisítások azonosításában 80%-os sikert értek el A Fossat elismeri, hogy a gyorsan fejlődő mesterséges intelligencia technológiájával lépést tartani a kihívást. Például az OpenAI közelmúltbeli fejlesztései a mikrolégzést szimuláló vokális mélyhamisítások létrehozásában bonyolultabbá tették az észlelést. A Fossat azonban továbbra is optimista, és megjegyzi, hogy több ezer más biomarker, például a pulzusszám hasznosítható a jövőbeni kimutatási módszerekhez.

A Klick Labs kutatásai túlmutatnak a mélyhamisítás észlelésén. 16 másik tanulmányt folytatnak a vokális biomarkerekről és betegségekről, köztük a Mayo Clinic Proceedings-ben közzétett tanulmányt.: Digital Health, amely egy mesterséges intelligencia-modellt mutatott be, amely képes nagy pontossággal kimutatni a 2-es típusú cukorbetegséget mindössze 10 másodperces hangadatok felhasználásával. Ez a kutatás a torontói Humber River Kórházzal együttműködésben folytatódik, ami potenciálisan telefonalapú diagnosztikai eszközök kifejlesztéséhez vezethet.

Categories: IT Info