Penelitian yang dipresentasikan di chi 2025 conference mengungkapkan pola yang aneh dalam bagaimana orang awam bereaksi terhadap> pidato yang lebih bersedia untuk bertindak pada panduan dari model bahasa besar (llms) seperti hal-hal yang tidak ada dalam panduan. Preferensi muncul meskipun orang menunjukkan kemampuan untuk membedakan antara AI dan teks yang ditulis manusia lebih baik daripada yang diprediksi kebetulan, menunjukkan hubungan yang kompleks dengan keahlian otomatis, sebagaimana dirinci dalam makalah yang berjudul”Keberatan Dibalas! Orang awam dapat membedakan model bahasa besar dari pengacara, tetapi masih mendukung saran dari llm.”
Temuan berasal dari serangkaian tiga percobaan yang melibatkan 288 peserta. Para peneliti mempresentasikan skenario hukum yang mencakup masalah umum seperti lalu lintas, perencanaan, dan hukum properti, berdasarkan kueri online dunia nyata yang bersumber dari platform seperti reddit r/reddit leg. Mereka kemudian menunjukkan kepada peserta nasihat yang sesuai yang dihasilkan baik oleh Openai’s ChatGPT-4O atau oleh pengacara khusus Inggris, mengukur kemauan untuk bertindak atau kepercayaan diri dalam mengidentifikasi sumber.
Saat mengetahui sumber
Temuan inti muncul dari membandingkan reaksi peserta berdasarkan apakah mereka tahu siapa yang menulis saran. Ketika peserta tidak mengetahui sumbernya (diuji dalam kelompok’sumber’Sumber’yang tidak diketahui’dan dikonfirmasi dalam Eksperimen 2), mereka secara konsisten menyatakan kemauan yang secara signifikan lebih tinggi untuk bertindak atas saran LLM dibandingkan dengan saran pengacara manusia. Namun, ketika sumber itu secara eksplisit diberi label sebagai’llm’atau’pengacara'(kelompok’sumber yang diketahui’yang diketahui), perbedaan ini menghilang; Peringkat kesediaan-ke-tindakan menjadi serupa secara statistik untuk kedua sumber.
Para peneliti menyarankan perbedaan ini mungkin berasal dari faktor sosial ketika sumber terungkap; Orang mungkin merasa berkewajiban untuk menilai saran dari profesional manusia yang lebih tinggi, sesuai dengan harapan yang dirasakan hanya ketika dibuat secara eksplisit sadar.
Faktor lain bisa menjadi karakteristik tekstual itu sendiri. Studi ini mencatat bahwa sementara saran LLM umumnya lebih pendek, bahasanya terdaftar lebih kompleks berdasarkan skor keterbacaan LIX (ukuran di mana skor yang lebih tinggi menunjukkan kesulitan yang lebih besar). Makalah ini membahas bahwa LLMS dapat menyajikan informasi dengan suasana kepercayaan diri, kontras dengan bahasa yang lebih hati-hati dan penuh lindung nilai yang khas dari pengacara manusia yang berkaitan dengan kewajiban dan nuansa.
membedakan AI, namun mendukungnya secara membabi buta
Menambah kemancuran kompleksitas, eksperimen ketiga tidak menunjukkan bahwa TOLEDAN TOLE-TOLOVOUS TOLOVOUS TOLOVOUS TOLOVOUS TOLOBOL TOLOBOL TOLOBOL TOLOBUS TOLODOL TOLODOL TOLODUS TOLOBUTOL TOLOBUTOL TOLOD. Ditugaskan dengan peringkat seberapa besar kemungkinan masing-masing nasihat harus dihasilkan oleh manusia (ketika tidak berlabel), peserta berkinerja secara signifikan lebih baik daripada kebetulan.
Menggunakan analisis karakteristik operasi penerima (ROC)-metode dari teori deteksi sinyal untuk mengukur diskriminasi secara independen dari bias respons-penelitian mengukur suatu daerah di bawah kurva). AUC 0,50 mewakili kinerja kebetulan, sedangkan 1.0 adalah akurasi yang sempurna, jadi 0,59 menunjukkan kemampuan asli, meskipun tidak sempurna, untuk membedakan perbedaan tekstual.
Ini menyajikan teka-teki: bahkan dengan kapasitas beberapa untuk mendeteksi kepengarangan AI, intlinasi default ketika mengoperasikan’buta’tampaknya mendukung output LLM. Risiko
Preferensi ini untuk nasihat AI yang berpotensi tidak terdeteksi ini sangat relevan mengingat masalah keandalan yang diketahui mengganggu LLM saat ini. Ketika model-model ini berkembang menjadi aplikasi pemberian saran yang lebih sensitif, seperti fitur penelitian mendalam Openai yang baru-baru ini diperbarui di ChatGPT, risiko pengguna yang bertindak pada informasi yang tidak akurat meningkat.
Laporan Mengikuti Mid-April 2025 Release Openai O3 dan O4-Mini Models, misalnya, menunjuk ke tingkat halal yang lebih tinggi-Generating Pla-Models-misalnya, menunjuk ke tingkat halal yang lebih tinggi-Generating Pla-Generating. Openai milik
Studi CHI menambahkan nuansa, menunjukkan ketidakpercayaan ini mungkin lebih jelas ketika keterlibatan AI eksplisit, kontras dengan preferensi yang ditemukan dalam skenario buta. Kecenderungan untuk mendukung nasihat AI’buta’juga memperumit upaya untuk memastikan akuntabilitas ketika alat AI berkontribusi pada panduan profesional. Penulis kertas CHI mengusulkan peningkatan literasi AI sebagai satu jalur ke depan, mungkin menggunakan metode pelatihan yang dikembangkan untuk mengidentifikasi informasi yang salah. Mereka juga menunjukkan pentingnya langkah-langkah transparansi, merujuk peraturan seperti UU AI UE yang mengamanatkan pelabelan yang jelas dari konten yang dihasilkan AI (jsPsych/JATOS experiments, are available to researchers via the Open Science Framework .