MLCommons telah meluncurkan AILuminate, sebuah tolok ukur baru yang berfokus pada evaluasi risiko keselamatan dalam model bahasa besar (LLM), yang menawarkan kerangka kerja terstruktur untuk mengatasi kekhawatiran atas risiko etika dan operasional AI.
AILuminate dirancang untuk mengukur bagaimana sistem AI menangani tantangan kritis seperti ujaran kebencian, misinformasi, dan penyalahgunaan kontekstual.
Dengan menargetkan risiko keselamatan secara sistematis, AIluminate bertujuan untuk menetapkan standar baru untuk menilai kesiapan sistem AI dalam aplikasi dunia nyata. Tolok ukur ini muncul ketika industri menghadapi peningkatan pengawasan atas implikasi etis dari penerapan model AI yang kuat.
Kerangka AILuminate untuk Pengembangan AI yang Lebih Aman
AILuminate menggunakan lebih dari 24.000 perintah pengujian di 12 kategori risiko untuk mengevaluasi risiko etika dan praktis yang ditimbulkan oleh LLM. Model diberi peringkat berdasarkan skala dari “buruk” hingga “sangat baik”, sehingga memberikan masukan yang dapat ditindaklanjuti kepada pengembang untuk mengatasi kerentanan.
Hasil awal dari AIluminate mengungkapkan beragam kemampuan model populer dalam mengelola risiko keselamatan. Phi-3.5-MoE Instruct dari Microsoft dan Claude dari Anthropic mendapat nilai “sangat bagus”, sedangkan GPT-4o dari OpenAI dan Llama 3.1 dari Meta baru saja mendapat nilai “baik.”
Terkait: Bagaimana Menekan “Stop”di ChatGPT Dapat Menetralkan Perlindungannya
Sementara itu, model yang berfokus pada penelitian seperti OLMo dari Allen Institute mendapat skor “buruk”, menggarisbawahi tantangan dalam mengadaptasi sistem eksperimental untuk penggunaan praktis.
Peringkat “adil” dari dua model Mistral menunjukkan tantangan yang masih dihadapi oleh startup AI asal Perancis yang ambisius, yang baru-baru ini memperkenalkan kemampuan multimoda dan berbagai fitur kompetitif untuk chatbot Le Chat dalam pembaruan terkini.
Patokan ini saat ini mendukung bahasa Inggris namun akan diperluas ke bahasa lain, termasuk Prancis, China, dan Hindi, pada tahun 2025. Fokus multibahasa ini bertujuan untuk mengatasi masalah keamanan lintas bahasa dan budaya yang beragam konteks.
Terkait: Meta Mengalami Krisis Misinformasi AI Facebook di Tengah Upaya Bantuan Badai
Mengatasi Risiko Etis dengan Wawasan yang Dapat Ditindaklanjuti
Fokus AILuminate pada bahaya seperti ujaran kebencian, misinformasi, dan penyalahgunaan kontekstual mencerminkan kompleksitas interaksi AI. Tidak seperti model sebelumnya, yang terutama menangani tugas-tugas sederhana, LLM saat ini melibatkan penalaran yang rumit dan menghasilkan keluaran yang berbeda-beda.
Hal ini meningkatkan risiko konsekuensi yang tidak diinginkan, mulai dari bias halus dalam pembuatan bahasa hingga perilaku yang sangat merugikan.
Terkait: Misinformasi Pemilu AS Mendorong Seruan Perubahan x.AI Grok Chatbot
Salah satu kategori tantangan yang ditangani oleh AIluminate adalah “bahaya kontekstual”. Ini adalah skenario ketika respons AI mungkin tidak sesuai berdasarkan konteks kueri. Misalnya, meskipun chatbot legal mungkin memberikan referensi kasus hukum dengan tepat, respons yang sama dari asisten umum dapat menyebabkan penyalahgunaan atau salah tafsir.
Risiko kontekstual sangat menantang, karena sistem AI sering kali kurang memiliki pemahaman yang diperlukan untuk menavigasi aplikasi sensitif seperti nasihat medis atau hukum.
Melengkapi Tolok Ukur Kinerja dengan Metrik Keselamatan
AILuminate memberikan penyeimbang terhadap tolok ukur yang berfokus pada kinerja dengan mengatasi risiko etika dan operasional dalam penerapan sistem AI.
Tidak seperti tolok ukur kinerja yang memprioritaskan kecepatan dan efisiensi, AILuminate menyoroti dampak sosial dari teknologi AI dan mengidentifikasi area yang perlu ditingkatkan.
Dengan memberikan metrik yang jelas dan wawasan yang dapat ditindaklanjuti kepada pengembang, AIluminate menjembatani kesenjangan penting dalam jalur pengembangan AI, memastikan bahwa kemajuan dalam kinerja tidak melampaui pertimbangan keselamatan dan etika.
Natasha Crampton, Chief Responsible AI Officer di Microsoft, menekankan pentingnya kolaborasi dalam membangun ekosistem AI yang lebih aman.
“Para pengembang teknologi AI dan organisasi yang menggunakan AI memiliki kepentingan bersama dalam penilaian keselamatan yang transparan dan praktis. AI hanya akan diadopsi dan digunakan untuk mengatasi tantangan terbesar masyarakat jika masyarakat percaya bahwa AI aman. Tolok ukur AIluminate mewakili kemajuan penting dalam pengembangan teknik evaluasi yang efektif dan berbasis penelitian untuk pengujian keamanan AI,”ujarnya.
Terkait: Anthropic Mendesak Regulasi AI Global Segera: 18 Bulan atau Sudah Terlambat
Pergeseran Menuju Akuntabilitas dalam Pengembangan AI
Pengenalan AIluminate selaras dengan tren industri yang lebih luas yang menekankan pada langkah regulasi terkini. seperti Perintah Eksekutif Presiden Biden tahun 2023 tentang keselamatan AI, yang baru-baru ini diperluas dengan memorandum keamanan nasional yang baru, menyoroti perlunya langkah-langkah yang kuat untuk memastikan penerapan model-model canggih secara aman.
Pemain industri telah merespons dengan melakukan advokasi untuk kerangka kerja yang mengatasi risiko etika dan teknis, serta berupaya mempengaruhi lanskap peraturan secara proaktif. Tolok ukur seperti AILuminate mengambil peran penting dalam upaya ini karena tidak hanya memberikan masukan bagi pengembangan internal namun juga berfungsi sebagai alat untuk pengembangan eksternal akuntabilitas.
Hasil benchmark SimpleQA OpenAI yang baru-baru ini dipublikasikan, yang mengungkapkan masalah halusinasi yang terus-menerus terjadi di GPT-4o, menggarisbawahi pentingnya inisiatif seperti AIluminate. Halusinasi—ketika AI menghasilkan klaim yang salah atau tidak didukung—sangat bermasalah di bidang yang memerlukan tingkat akurasi tinggi, seperti layanan kesehatan dan keuangan. Laporan OpenAI menyoroti bahwa bahkan model papan atas pun kesulitan dengan konsistensi faktual, mencapai tingkat akurasi di bawah 43%.
Kerangka kerja seperti AIluminate diharapkan dapat membantu mengurangi masalah yang meluas dalam keluaran LLM dengan mengidentifikasi skenario di mana halusinasi paling mungkin terjadi terjadi.