Sebagai kecerdasan buatan terus berjalan ke perusahaan, perbatasan baru cabaran keselamatan dibuka. Ejen AI, terutamanya yang dikuasakan oleh model bahasa yang besar, dilengkapi dengan kebiasaan operasi yang diketahui seperti halusinasi (menghasilkan maklumat palsu) dan kelemahan untuk menyerang serangan suntikan-teknik di mana arahan berniat jahat yang tersembunyi dalam input data input AI untuk melakukan tindakan yang tidak diingini. Mereka mewakili gerbang yang berpotensi untuk menjejaskan sistem korporat. Sekarang, Eksekutif Keselamatan Tertinggi Anthropic menambah garis masa tertentu kepada kebimbangan abstrak ini. Bercakap dengan Axios minggu ini, Dia memberi amaran src=”https://winbuzzer.com/wp-content/uploads/2024/10/anthropic-ai-safety-ai-sabotage.jpg”>

Pekerja maya ini tidak akan menjadi alat; Clinton membayangkan mereka mempunyai”kenangan”yang berterusan, peranan pekerjaan khusus, dan akaun korporat dan kata laluan mereka sendiri, memberikan mereka kemerdekaan operasi yang ketara jauh melebihi agen AI hari ini, yang biasanya memberi tumpuan kepada tugas-tugas yang diprogramkan seperti Microsoft seperti Microsoft menggunakannya untuk bertindak balas terhadap peringatan pancingan data.”Di dunia itu, terdapat begitu banyak masalah yang belum kita selesaikan dari perspektif keselamatan yang perlu kita selesaikan,”

Isu teras terletak pada menguruskan identiti AI ini. Bagaimanakah anda menjamin akaun pengguna AI dari kompromi? Kebenaran rangkaian apa yang sesuai untuk ejen autonomi?

Clinton menegaskan potensi AI untuk menjadi penyangak, mungkin menggodam saluran paip pembangunan perisian dalaman syarikat.”Di dunia lama, itu adalah kesalahan yang boleh dihukum,”katanya. Cabaran ini menguatkan kesukaran yang sedia ada pentadbir rangkaian menghadapi akses akaun pemantauan dan menangkis penyerang menggunakan kelayakan yang dicuri. Delinea dianggarkan lebih awal pada April 2025 sudah melebihi jumlah manusia 46-to-1 di banyak firma . Menambah pekerja AI autonomi secara dramatik meningkatkan kerumitan ini.

Anthropic, Clinton menyatakan, melihat menangani soalan-soalan keselamatan ini sebagai kawasan penting untuk pembangunan. Beliau secara khusus menyebutkan keperluan untuk alat yang lebih baik untuk memberikan penglihatan ke dalam aktiviti dan sistem pekerja AI untuk mengklasifikasikan jenis akaun baru ini dalam kerangka keselamatan.

Fokus ini bukan baru; Pada akhir 2024, Clinton menganjurkan untuk Pengkomputeran rahsia menggunakan persekitaran pelaksanaan yang dipercayai berasaskan perkakasan untuk melindungi data walaupun ia sedang diproses dalam ingatan, yang bertujuan untuk mencegah akses atau pengubahsuaian yang tidak dibenarkan. Bekerja pada rangka kerja interpretasi, terperinci pada bulan Mac, membenarkan para penyelidik untuk memerhatikan keadaan model dalaman yang berkaitan dengan tindakan simulasi yang berpotensi berbahaya, seperti menjana justifikasi palsu atau bahkan membayangkan bahaya kepada penciptanya. href=”https://assets.anthropic.com/m/18d20cca3cde3503/original/values-in-the-wild-paper.pdf”target=”_ blank”Yang berkaitan nilai dataset adalah awam . href=”https://www.anthropic.com/news/strategic-warning-for-ai-risk-progress-and-insights-fom-our-fontier-red-team”target=”_ blank”dan arahan. Ini berlaku walaupun model-model dinilai kerana belum menimbulkan risiko keselamatan negara yang tinggi pada masa itu. href=”https://www.bankinfosecurity.com/claudes-computer-use-may-end-d-pautionary-tale-a-26701″sasaran=”_ blank”Industri teknologi yang lebih luas mula bergulat dengan menguruskan identiti bukan manusia. Okta melancarkan platform pada bulan Februari delinea dan

Pada masa yang sama, paip teknikal untuk agen-agen ini sedang dipasang. Protokol Konteks Model Anthropic (MCP), yang ditubuhkan pada bulan November 2024, mendapat daya tarikan sebagai standard bagaimana agen AI berinteraksi dengan data luaran dan alat melalui HTTP atau sambungan tempatan. Openai hanya mengadopsi itu, mengikuti Microsoft, AWS, dan Google, yang berpotensi menyediakan laluan komunikasi untuk pekerja maya masa depan. Syarikat itu menyeru peraturan global segera pada bulan November 2024 dan Pada bulan Mac 2025, walaupun pada masa yang sama menghapuskan beberapa ikrar keselamatan sukarela yang lebih tua dari laman webnya. Sebagai pembiayaan yang sangat dibiayai (menaikkan $ 3.5 bilion pada bulan Februari 2025) dan makmal AI yang berpengaruh, antropik kelihatan komited untuk menolak keupayaan AI sambil bergelut dengan implikasi keselamatan.