Projek yang dihoskan GitHub menawarkan fail robots.txt yang dipilih susun yang direka untuk menyekat perangkak AI yang diketahui daripada mengakses kandungan tapak web.

Inisiatif yang dipanggil ai.robots.txt bertujuan untuk melindungi bahan dalam talian daripada digunakan untuk melatih model bahasa besar (LLM) tanpa kebenaran.

Dengan menawarkan fail ringkas yang menyenaraikan perangkak AI yang diketahui dikonfigurasikan untuk menyekat, projek itu menjemput pembangun untuk menegaskan kawalan yang lebih besar ke atas data mereka dan menggalakkan syarikat AI mematuhi amalan beretika.

Projek ini mencerminkan kekecewaan yang semakin meningkat dalam kalangan pemaju dan penerbit dengan kaedah legap yang digunakan sistem AI untuk mengumpul data latihan. Walaupun ia tidak boleh menguatkuasakan pematuhan, robots.txt yang dipilih susun mereka memberi tumpuan kepada tanggungjawab etika syarikat AI apabila teknologi mereka membentuk semula internet.

Cara Robots.txt yang Dipilih Berfungsi

Fail robots.txt yang ditawarkan termasuk senarai sumber terbuka nama ejen pengguna yang dikaitkan dengan perangkak AI, sebahagiannya diperoleh daripada Dark Visitors, sebuah inisiatif yang menjejaki bot aktiviti.

Pembangun digalakkan untuk menyumbang kemas kini dengan menyerahkan permintaan tarik pada GitHub, memastikan senarai itu kekal terkini apabila bot baharu muncul. Walaupun ia bergantung pada pematuhan sukarela oleh syarikat AI, projek ini menyediakan alat yang sangat diperlukan untuk pemilik tapak yang ingin mengurus cara kandungan mereka diakses dan digunakan.

Walaupun fail robots.txt yang dipilih susun menyediakan alat yang berharga bagi pemaju, keberkesanannya dihadkan oleh pergantungan pada pematuhan sukarela. Banyak perangkak AI beroperasi di luar sempadan etika yang dihormati oleh perangkak web tradisional seperti Googlebot.

Teknik lanjutan seperti penyemakan imbas tanpa kepala, yang membolehkan bot meniru tingkah laku manusia, menjadikannya lebih sukar untuk mengenal pasti dan menyekat akses tanpa kebenaran.

Langkah sisi pelayan, seperti menyekat IP dan disesuaikan peraturan firewall, menawarkan perlindungan tambahan tetapi tidak mudah.

Semakin ramai Crawler Menuai untuk AI

Perangkak Bing Microsoft dilaporkan menghormati robots.txt untuk indeks cariannya, seperti yang menjadi jelas apabila Reddit mula menawarkan kandungannya secara eksklusif kepada Google dan menyekat enjin carian lain seperti Bing dan DuckDuckGo. Walau bagaimanapun, ini terutamanya mengenai merangkak halaman untuk carian dan bukan melatih Model Bahasa Besar (LLM).

Seperti yang ditunjukkan kes Meta, syarikat teknologi besar tidak mengelak daripada menggunakan taktik yang tidak jelas untuk mendapatkan data untuk latihan AI mereka. Syarikat itu dilaporkan telah menggunakan set data tanpa kebenaran dengan buku cetak rompak dan artikel akademik.

Pencipta YouTube turut terjejas dengan cara yang sama, seperti tindakan undang-undang yang difailkan terhadap anak syarikat Google dan Nvidia, yang mendakwa menggunakan video tanpa kebenaran untuk latihan AI.

Perplexity AI: Kes dengan Isu Pematuhan

Keperluan untuk menyekat bot merangkak lanjutan menjadi sangat jelas pada tahun lepas melalui insiden yang melibatkan AI Perplexity. Pembangun Robb Knight mendapati bahawa Perplexity AI mengakses kandungan daripada tapak webnya, Radweb dan MacStories, walaupun arahan robots.txt eksplisit dan blok sisi pelayan dikonfigurasikan untuk mengembalikan respons”403 Dilarang”.

Analisis log pelayan didedahkan bahawa PerplexityBot menggunakan teknik menipu untuk memintas sekatan, seperti beroperasi melalui penyemak imbas tanpa kepala dan menutup identitinya dengan rentetan ejen pengguna biasa seperti Google Chrome pada Windows.

Kaedah ini membolehkannya mengelak daripada pengesanan semasa mengikis kandungan terhad Pada mulanya, Perplexity AI menafikan keupayaan untuk memintas sekatan ini tidak berlaku.”

MacStories’Federico Viticci mengesahkan penemuan Knight, menjelaskan bahawa langkah peringkat pelayan tambahan telah digunakan untuk menyekat PerplexityBot. Walau bagaimanapun, perlindungan lanjutan ini juga tidak mudah, menonjolkan kesukaran untuk memastikan pematuhan piawaian etika dalam rangkak web.

Dalam kes Perplexity AI, Knight menyatakan bahawa julat IPnya tidak sepadan dengan mana-mana syarikat yang diketahui umum. alamat, merumitkan lagi usaha penguatkuasaan. Ini menyerlahkan keperluan untuk alat dan rangka kerja kawal selia yang lebih teguh untuk menangani cabaran yang ditimbulkan oleh bot AI yang semakin canggih.

Walau bagaimanapun, kebingungan tidak bersendirian dalam amalan ini seperti yang ditunjukkan oleh peningkatan jumlah tuntutan undang-undang hak cipta terhadap pembangun AI. The New York Times terlibat dalam tuntutan mahkamah yang mahal terhadap Microsoft dan OpenAI berhubung kecurian kandungan.

Kes ini hanyalah satu contoh gelombang ketidakpuasan hati yang lebih besar di kalangan media, yang memerlukan standard yang lebih ketat untuk mentadbir AI pengumpulan data.

Categories: IT Info