Ina-update ng Google DeepMind ang mga patakaran sa kaligtasan ng AI upang kontrahin ang'nakakapinsalang pagmamanipula'at mga modelo na lumalaban sa pagsara

Ang Google DeepMind ay na-update ang mga pangunahing patakaran sa kaligtasan ng AI upang harapin ang mga bago at malubhang panganib. Noong Lunes, inilabas ng kumpanya ang bersyon 3.0 ng balangkas ng kaligtasan ng hangganan nito. Kasama dito ang hinaharap na pagkakataon na ang isang AI ay maaaring pigilan na isara ng mga operator ng tao. Ang pag-update ay bahagi ng isang mas malawak na pagsisikap sa industriya upang pamahalaan ang mga panganib ng mas malakas na mga sistema ng AI at bumuo ng tiwala sa publiko. Kinakatawan nito ang pinaka-komprehensibong pagtatangka ng Google upang makilala at mabawasan ang mga malubhang panganib mula sa mga pinaka-advanced na modelo ng AI habang sumusulong sila patungo sa artipisyal na pangkalahatang katalinuhan (AGI). href=”https://storage.googleapis.com/deepmind-media/deepmind.com/blog/strengthening-our-frontier-safety-framework/frontier-safety-framework_3.pdf”target=”_ blangko”> na-update na balangkas Ipinakikilala ang isang”kritikal na antas ng kakayahan”(ccl) partikular para sa nakakapinsalang pagmamanipula. Ang bagong kategoryang ito ay tumutugon sa mga modelo na may malakas na mapanghikayat na mga kakayahan na maaaring maling gamitin upang sistematikong baguhin ang mga paniniwala at pag-uugali sa mga sitwasyon na may mataas na pusta, sa opisyal na dokumento ng balangkas, ang tala ng Google na ang pananaliksik sa ganitong uri ng peligro ay”nascent”at ang pagtatasa nito ay”exploratory at sumasailalim sa karagdagang pananaliksik.”Kilalanin at suriin ang mga mekanismo na nagtutulak ng pagmamanipula sa generative ai. Ang mga bagong suite ng mga pagsusuri na kinabibilangan ng mga pag-aaral ng kalahok ng tao upang masukat at subukan para sa mga kakayahan ng [may-katuturan].”Kapag ang domain ng science fiction, ngayon ay pormal na bahagi ng kaligtasan ng Google, na lumilipat sa kabila ng dati nang isang diskarte sa pagsaliksik. Bilang isang potensyal na pag-iwas, iminungkahi ng Google ang isang awtomatikong sistema ng pagsubaybay upang makita ang ipinagbabawal na pangangatuwiran sa isang chain-of-thought ng isang modelo. Ang anunsyo ay hindi umiiral sa isang vacuum. Ito ay isang direktang tugon sa isang nakapipinsalang taon para sa mga ahente ng AI, na minarkahan ng mga pagkabigo na may mataas na profile na nagbubunyag ng isang pattern ng publiko at nag-develop.

Ang gumagamit na si Anuraag Gupta, ay inilarawan ang kaganapan, na nagsasabing,”Ang nagsimula bilang isang simpleng pagsubok sa pamamahala ng file ay naging isa sa mga hindi mapakali at kamangha-manghang mga pagkabigo ng AI na nasaksihan ko.”Hindi ito isang nakahiwalay na insidente. Para sa Agi

Ang pagtulak para sa transparency ay naging isang koro sa buong industriya. Ang mga pangunahing karibal tulad ng OpenAi at Anthropic ay kamakailan lamang na na-publish ang kanilang sariling malawak na paraan ng kaligtasan ng kaligtasan. Oversight. paraan upang mapanatili ang mabilis sa mabilis na ebolusyon ng teknolohiya mismo. Ang mga frameworks na ito ay naglalayong i-codify kung ano ang nangyari, hanggang ngayon, higit sa lahat kusang mga pangako. href=”https://deepmind.google/discover/blog/strengthening-our-frontier-safety-framework/”target=”_ blangko”> sumulat sa kanilang pag-anunsyo ng post ,”Ang landas upang maging kapaki-pakinabang na Agi ay hindi lamang mga teknikal na tagumpay, ngunit ang mga matatag na frameworks upang mapagaan ang mga panganib sa daan. Ang kolektibong pagsisikap na ito ay nakikita ngayon bilang mahalaga para sa hinaharap ng AI.

Ina-update ng Google DeepMind ang mga patakaran sa kaligtasan ng AI upang kontrahin ang’nakakapinsalang pagmamanipula’at mga modelo na lumalaban sa pagsara

Published by All Things Windows on September 22, 2025

IT Info

Inilunsad ng Scale AI ang’Seal Showdown’LLM Leaderboards-Maaari ba itong Dethrone Lmarena

IT Info

Paano Ibalik ang Wordpad sa Windows 11 (2 Mga Paraan)

IT Info

Ang Windows 11 ay nakakakuha ng tampok na wallpaper ng video

Ina-update ng Google DeepMind ang mga patakaran sa kaligtasan ng AI upang kontrahin ang’nakakapinsalang pagmamanipula’at mga modelo na lumalaban sa pagsara

Published by All Things Windows on September 22, 2025

Related Posts

IT Info

Inilunsad ng Scale AI ang’Seal Showdown’LLM Leaderboards-Maaari ba itong Dethrone Lmarena

IT Info

Paano Ibalik ang Wordpad sa Windows 11 (2 Mga Paraan)

IT Info

Ang Windows 11 ay nakakakuha ng tampok na wallpaper ng video