Klick Labs, forskningsavdelningen för Klick Health baserad i Toronto, har introducerat en ny metod för att skilja mellan mänskliga och AI-genererade ljudklipp. Denna utveckling sker mitt i en ökning av deepfake-innehåll, som inkluderar AI-producerad video, ljud och bilder som efterliknar verkliga individer.

Proliferationen av deepfakes har accelererats av tillkomsten av avancerade AI-chatbotar, hög-röstgeneratorer och replikatorer av hög kvalitet som de som erbjuds av Elevenlabs och Truecaller. Högprofilerade personer som Taylor Swift, president Joe Biden och påven har alla varit föremål för dessa sofistikerade förfalskningar. Europol har förutspått att senast 2026, upp till 90 % av innehållet syntetiskt skulle kunna genereras online , en känsla som återges av Canadian Security Intelligence Service, som har stämplat situationen som ett betydande hot.

Den senaste tidens bedrägerier med röstkloning har underströk vikten av att utveckla tillförlitliga metoder för deepfake-detektering. Som svar har Meta infört obligatoriska etiketter för AI-genererat innehåll, och Federal Communications Commission har beslutat att deepfake röster i robocall är olagliga. Allmän politik och AI-experter är särskilt oroade över den potentiella ökningen av deepfake-användning inför presidentvalet i USA.

Teknologisk inspiration och metodik

Yan Fossat, Senior Vice President för Digital Health Research and Development på Klick Labs , hämtade inspiration från science fiction för att ta itu med denna fråga. Med hänvisning till filmer som”Terminator”och”Blade Runner”föreställde Fossat och hans team ett verktyg som liknar Voight-Kampff-maskinen, som mäter fysiologiska svar för att bestämma äktheten. Resultaten av detta tillvägagångssätt publicerades i tidskriften JMIR Biomedical Engineering med öppen tillgång som beskriver Klick Labs resultat. p>

I sitt labb i Toronto började Fossat och hans team experimentera med röstanalys. De samlade in ljudprover från 49 individer med olika accenter och bakgrunder och genererade syntetiska klipp med en deepfake-generator. Dessa klipp granskades sedan för vokala biomarkörer – distinkta egenskaper i röster som avslöjar information om talarens hälsa eller fysiologi.

Klick Labs har identifierat 12 000 vokala biomarkörer, men deras nuvarande detekteringsmetod bygger på fem specifika markörer: tal: längd, variation, mikropauser, makropauser och andelen taltid kontra paus. Mikropauser är korta pauser under en halv sekund, medan makropauser är längre. Dessa pauser inträffar naturligt i mänskligt tal när människor andas eller söker efter ord.

Utmaningar och framtidsutsikter

Trots att de uppnår 80 % framgång i att identifiera deepfakes , Fossat erkänner utmaningen att hålla jämna steg med snabbt utvecklande AI-teknik. Till exempel har OpenAIs senaste framsteg när det gäller att generera vokala deepfakes som simulerar mikroandning gjort upptäckten mer komplex. Fossat förblir dock optimistisk och noterar att tusentals andra biomarkörer, såsom hjärtfrekvens, skulle kunna utnyttjas för framtida detekteringsmetoder.

Klick Labs forskning sträcker sig bortom deepfake-detektering. De genomför 16 andra studier om vokala biomarkörer och sjukdomar, inklusive en studie publicerad i Mayo Clinic Proceedings: Digital Health, som visade en AI-modell som kan upptäcka typ 2-diabetes med hög noggrannhet med bara 10 sekunders röstdata. Denna forskning kommer att fortsätta i samarbete med Humber River Hospital i Toronto, vilket kan leda till telefonbaserade diagnostiska verktyg.

Categories: IT Info