位於多倫多的 Klick Health 的研究部門 Klick Labs 推出了一種區分人類和人工智慧生成的音訊剪輯的新穎方法。這項發展正值深度造假內容激增之際,其中包括人工智慧製作的模仿真實個體的視訊、音訊和圖像。造假的擴散。泰勒絲、總統拜登和教皇等知名人物都成為這些複雜偽造品的目標。歐洲刑警組織預計,到 2026 年,高達 90% 的線上內容可以透過合成方式產生,加拿大安全情報局,已將這種情況標記為重大威脅。作為回應,Meta 為人工智慧生成的內容引入了強制性標籤,美國聯邦通訊委員會也裁定機器人通話中的深度偽造聲音是非法的。公共政策和人工智慧專家尤其擔心美國總統大選前夕 Deepfake 的使用可能會增加。 AI-Generic.jpg”>

技術靈感與方法

Klick Labs 數位健康研發資深副總裁Yan Fossat ,從科幻小說中汲取靈感來解決這個問題。參考《魔鬼終結者》和《銀翼殺手》等電影,福薩特和他的團隊設想了一種類似沃伊特-坎普夫機器的工具,它可以測量生理反應來確定真實性。這種方法的結果發表在開放取用期刊JMIR Biomedical Engineering 上,詳細介紹了Klick Labs 的發現。/在多倫多實驗室,福薩特和他的團隊開始嘗試語音分析。他們收集了 49 個具有不同口音和背景的人的音訊樣本,並使用 Deepfake 生成器生成合成剪輯。然後仔細檢查這些片段中的聲音生物標記,即聲音中的獨特特徵,可揭示有關說話者健康或生理的信息。的檢測方法依賴於五個特定標記:語音長度、變化、微停頓、大停頓以及說話與停頓所花費的時間比例。微停頓是半秒以下的短暫停頓,​​而大停頓則更長。當人們呼吸或搜尋單字時,這些停頓在人類言語中自然發生。 80% Fossat 承認跟上快速發展的人工智慧技術的步伐所面臨的挑戰。例如,OpenAI 最近在產生模擬微呼吸的聲音深度偽造方面取得了進展,這使得檢測變得更加複雜。然而,Fossat 仍然保持樂觀,指出數千種其他生物標記(例如心率)可用於未來的檢測方法。他們正在進行其他16 項關於聲音生物標記和疾病的研究,其中一項發表在Mayo Clinic Proceedings 的研究:數位健康,展示了一種人工智慧模型,能夠僅使用 10 秒的語音數據就能高精度檢測 2 型糖尿病。這項研究將繼續與多倫多亨伯河醫院合作,有可能開發出基於手機的診斷工具。

Categories: IT Info