Klick Labs, bahagian penyelidikan Klick Health yang berpangkalan di Toronto, telah memperkenalkan kaedah baru untuk membezakan antara klip audio yang dijana oleh manusia dan AI. Perkembangan ini berlaku di tengah-tengah lonjakan dalam kandungan deepfake, yang termasuk video, audio dan imej yang dihasilkan AI yang meniru individu sebenar.
Percambahan deepfakes telah dipercepatkan dengan kemunculan chatbot AI canggih, high-penjana suara dan replikator berkualiti seperti yang ditawarkan oleh Elevenlabs dan Truecaller. Tokoh berprofil tinggi seperti Taylor Swift, Presiden Joe Biden, dan Pope semuanya telah menjadi sasaran pemalsuan canggih ini. Europol telah mengunjurkan bahawa menjelang 2026, sehingga 90% kandungan yang dijana secara dalam talian boleh menjadi 90% , sentimen yang digemakan oleh Perkhidmatan Perisikan Keselamatan Kanada, yang telah melabelkan situasi sebagai ancaman yang ketara.
Penipuan pengklonan suara baru-baru ini telah menekankan keperluan untuk membangunkan kaedah pengesanan deepfake yang boleh dipercayai. Sebagai tindak balas, Meta telah memperkenalkan label mandatori untuk kandungan yang dijana AI, dan Suruhanjaya Komunikasi Persekutuan telah memutuskan bahawa suara palsu dalam panggilan robo adalah haram. Pakar dasar awam dan AI amat mengambil berat tentang potensi peningkatan penggunaan deepfake menjelang pilihan raya presiden A.S.
Inspirasi dan Metodologi Teknologi
Yan Fossat, Naib Presiden Kanan Penyelidikan dan Pembangunan Kesihatan Digital di Klick Labs , mendapat inspirasi daripada fiksyen sains untuk menangani isu ini. Merujuk filem seperti”Terminator”dan”Blade Runner,”Fossat dan pasukannya membayangkan alat yang serupa dengan mesin Voight-Kampff, yang mengukur tindak balas fisiologi untuk menentukan keaslian. Keputusan pendekatan ini telah diterbitkan dalam jurnal akses terbuka JMIR Biomedical Engineering yang memperincikan penemuan Klick Labs. p>
Di makmal Toronto mereka, Fossat dan pasukannya mula bereksperimen dengan analisis suara. Mereka mengumpulkan sampel audio daripada 49 individu dengan pelbagai aksen dan latar belakang serta menghasilkan klip sintetik menggunakan penjana deepfake. Klip ini kemudiannya diteliti untuk biomarker vokal—ciri tersendiri dalam suara yang mendedahkan maklumat tentang kesihatan atau fisiologi pembesar suara.
Klick Labs telah mengenal pasti 12,000 biomarker vokal, tetapi kaedah pengesanan semasa mereka bergantung pada lima penanda khusus: pertuturan panjang, variasi, mikrojeda, makrojeda dan perkadaran masa yang dihabiskan untuk bercakap berbanding berhenti seketika. Jeda mikro ialah jeda singkat di bawah setengah saat, manakala jeda makro lebih lama. Jeda ini berlaku secara semula jadi dalam pertuturan manusia semasa orang bernafas atau mencari perkataan.
Cabaran dan Prospek Masa Depan
Walaupun mencapai kadar kejayaan 80% dalam mengenal pasti deepfakes , Fossat mengakui cabaran untuk seiring dengan teknologi AI yang berkembang pesat. Sebagai contoh, kemajuan OpenAI baru-baru ini dalam menghasilkan deepfakes vokal yang mensimulasikan nafas mikro telah menjadikan pengesanan lebih kompleks. Walau bagaimanapun, Fossat kekal optimistik, dengan menyatakan bahawa beribu-ribu biomarker lain, seperti kadar denyutan jantung, boleh dimanfaatkan untuk kaedah pengesanan masa hadapan.
Penyelidikan Klick Labs melangkaui pengesanan deepfake. Mereka sedang menjalankan 16 kajian lain tentang biomarker vokal dan penyakit, termasuk kajian yang diterbitkan dalam Prosiding Klinik Mayo: Kesihatan Digital, yang menunjukkan model AI yang mampu mengesan diabetes Jenis 2 dengan ketepatan tinggi menggunakan hanya 10 saat data suara. Penyelidikan ini akan diteruskan dengan kerjasama Hospital Sungai Humber di Toronto, yang berpotensi membawa kepada alat diagnostik berasaskan telefon.