Klick Labs, divizia de cercetare a Klick Health cu sediul în Toronto, a introdus o metodă nouă pentru a face distincția între clipurile audio generate de oameni și cele generate de AI. Această dezvoltare vine pe fondul unei creșteri a conținutului deepfake, care include videoclipuri, audio și imagini produse de AI care imită indivizi reali.

Proliferarea deepfake-urilor a fost accelerată de apariția chatbot-urilor AI avansate, de înaltă calitate. generatoare și replicatoare de voce de calitate precum cele oferite de Elevenlabs și Truecaller. Personalități importante precum Taylor Swift, președintele Joe Biden și Papa au fost toate vizate de aceste falsuri sofisticate. Europol a proiectat că până în 2026, până la 90% din conținutul online poate fi generat sintetic , un sentiment repetat de Canadian Security Intelligence Service, care a etichetat situația drept o amenințare semnificativă.

Recentele escrocherii de clonare a vocii au a subliniat urgența dezvoltării unor metode fiabile de detectare a deepfake-urilor. Ca răspuns, Meta a introdus etichete obligatorii pentru conținutul generat de inteligență artificială, iar Comisia Federală de Comunicații a decis că vocile deepfake în apelurile automate sunt ilegale. Experții în politici publice și inteligență artificială sunt în special îngrijorați de potențiala creștere a utilizării deepfake-ului în perioada premergătoare alegerilor prezidențiale din SUA.

Inspirație și metodologie tehnologică

Yan Fossat, vicepreședinte senior al cercetării și dezvoltării în sănătate digitală la Klick Labs , sa inspirat din science fiction pentru a aborda această problemă. Făcând referire la filme precum „Terminator” și „Blade Runner”, Fossat și echipa sa au imaginat un instrument asemănător mașinii Voight-Kampff, care măsoară răspunsurile fiziologice pentru a determina autenticitatea. Rezultatele acestei abordări au fost publicate în jurnalul cu acces deschis JMIR Biomedical Engineering care detaliază descoperirile Klick Labs. p>

În laboratorul lor din Toronto, Fossat și echipa sa au început să experimenteze cu analiza vocii. Ei au adunat mostre audio de la 49 de persoane cu accente și fundaluri diverse și au generat clipuri sintetice folosind un generator de deepfake. Aceste clipuri au fost apoi analizate pentru biomarkeri vocali – caracteristici distinctive ale vocilor care dezvăluie informații despre sănătatea sau fiziologia vorbitorului.

Klick Labs a identificat 12.000 de biomarkeri vocali, dar metoda lor actuală de detectare se bazează pe cinci markeri specifici: vorbirea lungime, variație, micropauze, macropauze și proporția de timp petrecut vorbind față de pauză. Micropauzele sunt pauze scurte sub o jumătate de secundă, în timp ce macropauzele sunt mai lungi. Aceste pauze apar în mod natural în vorbirea umană, pe măsură ce oamenii respiră sau caută cuvinte.

Provocări și perspective de viitor

În pofida obținerii unei rate de succes de 80% în identificarea deepfake-urilor , Fossat recunoaște provocarea de a ține pasul cu tehnologia AI care evoluează rapid. De exemplu, progresele recente ale OpenAI în generarea de deepfake vocale care simulează micro-respirații au făcut detectarea mai complexă. Cu toate acestea, Fossat rămâne optimist, menționând că mii de alți biomarkeri, cum ar fi ritmul cardiac, ar putea fi folosiți pentru metodele de detectare viitoare.

Cercetarea Klick Labs se extinde dincolo de detectarea deepfake. Ei efectuează alte 16 studii despre biomarkeri vocali și boli, inclusiv un studiu publicat în Mayo Clinic Proceedings: Digital Health, care a demonstrat un model AI capabil să detecteze diabetul de tip 2 cu precizie ridicată folosind doar 10 secunde de date vocale. Această cercetare va continua în colaborare cu Humber River Hospital din Toronto, ceea ce poate duce la instrumente de diagnosticare pe bază de telefon.

Categories: IT Info