Klick Labs, divisi penelitian Klick Health yang berbasis di Toronto, telah memperkenalkan metode baru untuk membedakan antara klip audio yang dibuat oleh manusia dan yang dibuat oleh AI. Perkembangan ini terjadi di tengah lonjakan konten deepfake, yang mencakup video, audio, dan gambar yang diproduksi oleh AI yang meniru individu sungguhan.

Perkembangan deepfake telah dipercepat dengan munculnya chatbot AI yang canggih, high-end generator dan replikator suara berkualitas seperti yang ditawarkan oleh Elevenlabs dan Truecaller. Tokoh terkenal seperti Taylor Swift, Presiden Joe Biden, dan Paus semuanya menjadi sasaran pemalsuan canggih ini. Europol memperkirakan bahwa pada tahun 2026, hingga 90% konten online dapat dibuat secara sintetis , sentimen yang diamini oleh Badan Intelijen Keamanan Kanada, yang menyebut situasi ini sebagai ancaman signifikan.

Penipuan kloning suara baru-baru ini telah terjadi menggarisbawahi pentingnya mengembangkan metode deteksi deepfake yang andal. Sebagai tanggapan, Meta telah memperkenalkan label wajib untuk konten yang dihasilkan AI, dan Komisi Komunikasi Federal telah memutuskan bahwa suara deepfake dalam robocall adalah ilegal. Pakar kebijakan publik dan AI sangat prihatin dengan potensi peningkatan penggunaan deepfake menjelang pemilihan presiden AS.

Inspirasi dan Metodologi Teknologi

Yan Fossat, Wakil Presiden Senior Penelitian dan Pengembangan Kesehatan Digital di Klick Labs , mendapat inspirasi dari fiksi ilmiah untuk mengatasi masalah ini. Merujuk pada film seperti “Terminator” dan “Blade Runner”, Fossat dan timnya membayangkan sebuah alat yang mirip dengan mesin Voight-Kampff, yang mengukur respons fisiologis untuk menentukan keasliannya. Hasil dari pendekatan ini diterbitkan di jurnal akses terbuka JMIR Biomedical Engineering yang merinci temuan Klick Labs.

Di laboratorium mereka di Toronto, Fossat dan timnya mulai bereksperimen dengan analisis suara. Mereka mengumpulkan sampel audio dari 49 individu dengan aksen dan latar belakang beragam dan menghasilkan klip sintetis menggunakan generator deepfake. Klip-klip ini kemudian diteliti untuk mengetahui biomarker vokal—fitur khas dalam suara yang mengungkapkan informasi tentang kesehatan atau fisiologi pembicara.

Klick Labs telah mengidentifikasi 12.000 biomarker vokal, namun metode deteksi mereka saat ini bergantung pada lima penanda spesifik: ucapan durasi, variasi, jeda mikro, jeda makro, dan proporsi waktu yang dihabiskan untuk berbicara versus jeda. Micropause adalah jeda singkat kurang dari setengah detik, sedangkan macropause lebih lama. Jeda ini terjadi secara alami dalam ucapan manusia saat orang bernapas atau mencari kata-kata.

Tantangan dan Prospek Masa Depan

Meskipun tingkat keberhasilan mencapai 80% dalam mengidentifikasi deepfake , Fossat menyadari tantangan untuk mengimbangi teknologi AI yang berkembang pesat. Misalnya, kemajuan terbaru OpenAI dalam menghasilkan deepfake vokal yang menyimulasikan napas mikro telah membuat pendeteksian menjadi lebih kompleks. Namun, Fossat tetap optimis, mengingat bahwa ribuan biomarker lainnya, seperti detak jantung, dapat dimanfaatkan untuk metode deteksi di masa depan.

Penelitian Klick Labs lebih dari sekadar deteksi deepfake. Mereka melakukan 16 penelitian lain mengenai biomarker vokal dan penyakit, termasuk penelitian yang dipublikasikan di Mayo Clinic Proceedings: Kesehatan Digital, yang mendemonstrasikan model AI yang mampu mendeteksi diabetes Tipe 2 dengan akurasi tinggi hanya dengan menggunakan data suara berdurasi 10 detik. Penelitian ini akan dilanjutkan melalui kerja sama dengan Rumah Sakit Humber River di Toronto, yang berpotensi mengarah pada alat diagnostik berbasis telepon.

Categories: IT Info