Studi menemukan orang lebih suka nasihat hukum AI buta, bahkan jika mereka dapat melihatnya

Penelitian yang dipresentasikan di chi 2025 conference mengungkapkan pola yang aneh dalam bagaimana orang awam bereaksi terhadap> pidato yang lebih bersedia untuk bertindak pada panduan dari model bahasa besar (llms) seperti hal-hal yang tidak ada dalam panduan. Preferensi muncul meskipun orang menunjukkan kemampuan untuk membedakan antara AI dan teks yang ditulis manusia lebih baik daripada yang diprediksi kebetulan, menunjukkan hubungan yang kompleks dengan keahlian otomatis, sebagaimana dirinci dalam makalah yang berjudul”Keberatan Dibalas! Orang awam dapat membedakan model bahasa besar dari pengacara, tetapi masih mendukung saran dari llm.”

Temuan berasal dari serangkaian tiga percobaan yang melibatkan 288 peserta. Para peneliti mempresentasikan skenario hukum yang mencakup masalah umum seperti lalu lintas, perencanaan, dan hukum properti, berdasarkan kueri online dunia nyata yang bersumber dari platform seperti reddit r/reddit leg. Mereka kemudian menunjukkan kepada peserta nasihat yang sesuai yang dihasilkan baik oleh Openai’s ChatGPT-4O atau oleh pengacara khusus Inggris, mengukur kemauan untuk bertindak atau kepercayaan diri dalam mengidentifikasi sumber.

Saat mengetahui sumber

Temuan inti muncul dari membandingkan reaksi peserta berdasarkan apakah mereka tahu siapa yang menulis saran. Ketika peserta tidak mengetahui sumbernya (diuji dalam kelompok’sumber’Sumber’yang tidak diketahui’dan dikonfirmasi dalam Eksperimen 2), mereka secara konsisten menyatakan kemauan yang secara signifikan lebih tinggi untuk bertindak atas saran LLM dibandingkan dengan saran pengacara manusia. Namun, ketika sumber itu secara eksplisit diberi label sebagai’llm’atau’pengacara'(kelompok’sumber yang diketahui’yang diketahui), perbedaan ini menghilang; Peringkat kesediaan-ke-tindakan menjadi serupa secara statistik untuk kedua sumber.

Para peneliti menyarankan perbedaan ini mungkin berasal dari faktor sosial ketika sumber terungkap; Orang mungkin merasa berkewajiban untuk menilai saran dari profesional manusia yang lebih tinggi, sesuai dengan harapan yang dirasakan hanya ketika dibuat secara eksplisit sadar.

Faktor lain bisa menjadi karakteristik tekstual itu sendiri. Studi ini mencatat bahwa sementara saran LLM umumnya lebih pendek, bahasanya terdaftar lebih kompleks berdasarkan skor keterbacaan LIX (ukuran di mana skor yang lebih tinggi menunjukkan kesulitan yang lebih besar). Makalah ini membahas bahwa LLMS dapat menyajikan informasi dengan suasana kepercayaan diri, kontras dengan bahasa yang lebih hati-hati dan penuh lindung nilai yang khas dari pengacara manusia yang berkaitan dengan kewajiban dan nuansa.

membedakan AI, namun mendukungnya secara membabi buta

Menambah kemancuran kompleksitas, eksperimen ketiga tidak menunjukkan bahwa TOLEDAN TOLE-TOLOVOUS TOLOVOUS TOLOVOUS TOLOVOUS TOLOBOL TOLOBOL TOLOBOL TOLOBUS TOLODOL TOLODOL TOLODUS TOLOBUTOL TOLOBUTOL TOLOD. Ditugaskan dengan peringkat seberapa besar kemungkinan masing-masing nasihat harus dihasilkan oleh manusia (ketika tidak berlabel), peserta berkinerja secara signifikan lebih baik daripada kebetulan.

Menggunakan analisis karakteristik operasi penerima (ROC)-metode dari teori deteksi sinyal untuk mengukur diskriminasi secara independen dari bias respons-penelitian mengukur suatu daerah di bawah kurva). AUC 0,50 mewakili kinerja kebetulan, sedangkan 1.0 adalah akurasi yang sempurna, jadi 0,59 menunjukkan kemampuan asli, meskipun tidak sempurna, untuk membedakan perbedaan tekstual.

Ini menyajikan teka-teki: bahkan dengan kapasitas beberapa untuk mendeteksi kepengarangan AI, intlinasi default ketika mengoperasikan’buta’tampaknya mendukung output LLM. Risiko

Preferensi ini untuk nasihat AI yang berpotensi tidak terdeteksi ini sangat relevan mengingat masalah keandalan yang diketahui mengganggu LLM saat ini. Ketika model-model ini berkembang menjadi aplikasi pemberian saran yang lebih sensitif, seperti fitur penelitian mendalam Openai yang baru-baru ini diperbarui di ChatGPT, risiko pengguna yang bertindak pada informasi yang tidak akurat meningkat.

Laporan Mengikuti Mid-April 2025 Release Openai O3 dan O4-Mini Models, misalnya, menunjuk ke tingkat halal yang lebih tinggi-Generating Pla-Models-misalnya, menunjuk ke tingkat halal yang lebih tinggi-Generating Pla-Generating. Openai milik Artikel 50 ) dan risiko Disclosure, PLOCKSIFLIK UNTUK PRANDSIONAL. Diidentifikasi, daripada meniru pakar manusia, mungkin menjadi kunci untuk menumbuhkan lebih banyak kepercayaan pengguna yang dikalibrasi. The full study materials, including data and analysis scripts used in the jsPsych/JATOS experiments, are available to researchers via the Open Science Framework .

Studi menemukan orang lebih suka nasihat hukum AI buta, bahkan jika mereka dapat melihatnya

Published by All Things Windows on April 28, 2025

membedakan AI, namun mendukungnya secara membabi buta

IT Info

Cara menghapus aplikasi menggunakan winget di windows 11 & 10

IT Info

Cara Menambahkan Akun Anak ke PC Windows 10 Anda

IT Info

Samsung mengkonfirmasi cacat keamanan galaxy clipboard

Studi menemukan orang lebih suka nasihat hukum AI buta, bahkan jika mereka dapat melihatnya

Published by All Things Windows on April 28, 2025

membedakan AI, namun mendukungnya secara membabi buta

Related Posts

IT Info

Cara menghapus aplikasi menggunakan winget di windows 11 & 10

IT Info

Cara Menambahkan Akun Anak ke PC Windows 10 Anda

IT Info

Samsung mengkonfirmasi cacat keamanan galaxy clipboard