Klick Labs, Klick Healthin Torontossa sijaitseva tutkimusosasto, on ottanut käyttöön uuden menetelmän ihmisten ja tekoälyn luomien äänileikkeiden erottamiseksi toisistaan. Tämä kehitys tapahtuu keskellä syvän väärennössisällön kasvua, joka sisältää tekoälyllä tuotettua videota, ääntä ja kuvia, jotka jäljittelevät oikeita henkilöitä.
Deepfake-väärennösten leviämistä on kiihdyttänyt kehittyneiden tekoäly-chatbottien, korkean laadukkaat äänigeneraattorit ja-toistimet, kuten Elevenlabsin ja Truecallerin tarjoamat. Korkean profiilin hahmot, kuten Taylor Swift, presidentti Joe Biden ja paavi, ovat kaikki joutuneet näiden hienostuneiden väärennösten kohteeksi. Europol on arvioinut, että vuoteen 2026 mennessä jopa 90 % verkkosisällöstä voitaisiin tuottaa synteettisesti , jota Kanadan turvallisuustiedustelupalvelu, joka on leimannut tilanteen merkittäväksi uhkaksi.
Viimeaikaiset äänen kloonaushuijaukset ovat korosti luotettavien syvän väärennösten havaitsemismenetelmien kehittämisen kiireellisyyttä. Vastauksena Meta on ottanut käyttöön pakolliset merkinnät tekoälyn luomalle sisällölle, ja liittovaltion viestintäkomissio on päättänyt, että syväfake-äänet robottipuheluissa ovat laittomia. Yleisen politiikan ja tekoälyasiantuntijat ovat erityisen huolissaan syväväärennösten käytön mahdollisesta lisääntymisestä ennen Yhdysvaltain presidentinvaaleja.
Teknologinen inspiraatio ja menetelmät
Yan Fossat, Klick Labsin digitaalisen terveyden tutkimuksen ja kehityksen johtaja , sai inspiraatiota tieteiskirjallisuudesta tämän ongelman ratkaisemiseen. Viitaten elokuviin, kuten”Terminator”ja”Blade Runner”, Fossat ja hänen tiiminsä kuvittelivat Voight-Kampff-koneen kaltaisen työkalun, joka mittaa fysiologisia vasteita aitouden määrittämiseksi. Tämän lähestymistavan tulokset julkaistiin avoimessa julkaisussa JMIR Biomedical Engineering, jossa kerrottiin yksityiskohtaisesti Klick Labsin havainnoista. p>
Fossat ja hänen tiiminsä alkoivat kokeilla äänianalyysiä Toronton laboratoriossa. He keräsivät ääninäytteitä 49 henkilöltä, joilla oli erilaisia aksentteja ja taustoja, ja luotiin synteettisiä leikkeitä käyttämällä deepfake-generaattoria. Nämä leikkeet tutkittiin sitten äänen biomarkkereiden varalta – äänien erottuvia piirteitä, jotka paljastavat tietoa puhujan terveydestä tai fysiologiasta.
Klick Labs on tunnistanut 12 000 äänen biomarkkeria, mutta niiden nykyinen tunnistusmenetelmä perustuu viiteen erityiseen merkkiin: puheeseen. pituus, vaihtelu, mikrotauot, makrotauot ja puhumiseen käytetyn ajan suhde taukoon. Mikrotauot ovat lyhyitä alle puolen sekunnin taukoja, kun taas makrotauot ovat pidempiä. Näitä taukoja esiintyy luonnollisesti ihmisen puheessa, kun ihmiset hengittävät tai etsivät sanoja.
Haasteet ja tulevaisuuden näkymät
Vaikka 80 %:n onnistumisprosentti syväväärennösten tunnistamisessa on , Fossat tunnustaa haasteen pysyä nopeasti kehittyvän tekoälytekniikan tahdissa. Esimerkiksi OpenAI:n viimeaikaiset edistysaskelut mikrohengityksiä simuloivien äänen syväväärennösten luomisessa ovat tehneet havaitsemisesta monimutkaisempaa. Fossat on kuitenkin edelleen optimistinen ja toteaa, että tuhansia muita biomarkkereita, kuten sykettä, voitaisiin hyödyntää tulevissa havaitsemismenetelmissä.
Klick Labsin tutkimus ulottuu syvän väärennösten havaitsemisen lisäksi. He suorittavat 16 muuta tutkimusta äänen biomarkkereista ja sairauksista, mukaan lukien tutkimus, joka on julkaistu julkaisussa Mayo Clinic Proceedings: Digital Health, joka esitteli tekoälymallin, joka pystyy havaitsemaan tyypin 2 diabeteksen suurella tarkkuudella käyttämällä vain 10 sekunnin äänidataa. Tätä tutkimusta jatketaan yhteistyössä Toronton Humber River Hospitalin kanssa, mikä saattaa johtaa puhelinpohjaisiin diagnostiikkatyökaluihin.