Ang Google DeepMind ay nagpakilala ng isang komprehensibong framework na naglalayong suriin at mabawasan ang mga potensyal na panganib na nauugnay sa mga advanced na modelo ng AI. Ang Frontier Safety Framework ay naglalayong tugunan ang mga mapanganib na kakayahan habang ang teknolohiya ng AI ay patuloy na umuunlad.

Ang AI security framework, na inilabas ng Google DeepMind, ay nagbabalangkas ng isang sistematikong proseso para sa pagtatasa ng mga modelo ng AI. Nagaganap ang mga pagsusuri sa tuwing tataas ng anim na beses ang computational power na ginamit upang sanayin ang isang modelo o kapag ang modelo ay sumasailalim sa fine-tuning sa loob ng tatlong buwan. Sa pagitan ng mga pagsusuri, ang mga sistema ng maagang babala ay idinisenyo upang makita ang mga umuusbong na panganib. Plano ng DeepMind na makipagtulungan sa iba pang kumpanya, akademya, at mambabatas upang pinuhin at pahusayin ang balangkas, sa pagpapatupad ng mga tool sa pag-audit na nakatakdang magsimula sa 2025.

Mga Kasalukuyang Kasanayan sa Pagsusuri

Sa kasalukuyan, ang pagsusuri ng mga mahuhusay na modelo ng AI ay isang ad hoc na proseso, na umuunlad habang ang mga mananaliksik ay gumagawa ng mga bagong diskarte. Ang”mga pulang koponan”ay gumugugol ng mahabang panahon sa pagsubok ng mga modelo sa pamamagitan ng pagtatangkang i-bypass ang mga pag-iingat gamit ang iba’t ibang mga prompt.
 
Ang mga kumpanya pagkatapos ay nagpapatupad ng mga diskarte tulad ng reinforcement learning at mga espesyal na prompt upang matiyak ang pagsunod. Bagama’t ang diskarteng ito ay sapat na para sa mga kasalukuyang modelo, na hindi ngunit sapat na malakas upang magdulot ng mga makabuluhang banta, ang isang mas matatag na proseso ay itinuturing na kinakailangan habang sumusulong ang mga kakayahan ng AI.

Mga Antas ng Kritikal na Kakayahan

Nagtatag ang DeepMind ng mga partikular na antas ng kritikal na kakayahan para sa apat na domain: autonomy, biosecurity, cybersecurity, at machine learning research and development. Ang mga antas na ito ay idinisenyo upang tukuyin ang mga modelo na maaaring magkaroon ng kontrol sa mga tao o lumikha ng sopistikadong malware. Binibigyang-diin ng kumpanya ang kahalagahan ng pagbabalanse ng pagbabawas ng panganib sa pagpapaunlad ng pagbabago at pag-access sa teknolohiya ng AI.

Framework Evolution at. Pakikipagtulungan

Ang Frontier Safety Framework ay idinisenyo upang maagap na tukuyin at pagaanin ang mga panganib sa hinaharap na dulot ng mga advanced na modelo ng AI, na tumutugon sa mga potensyal na malubhang pinsala tulad ng pambihirang ahensya o mga sopistikadong kakayahan sa cyber.
 
Ito ay nilayon upang umakma sa umiiral na pananaliksik sa pag-align ng AI at sa hanay ng mga kasanayan sa responsibilidad at kaligtasan ng AI ng Google. Ang balangkas ay magbabago habang umuusad ang pagpapatupad at habang lumalalim ang pakikipagtulungan sa industriya, akademya, at pamahalaan.

Ang Frontier Safety Team ay bumuo ng isang evaluation suite upang masuri ang mga panganib mula sa mga kritikal na kakayahan, na nagbibigay-diin sa mga autonomous na ahente ng LLM. Ang kanilang kamakailang papel ay nagsasaliksik ng mga mekanismo para sa isang”sistema ng maagang babala”upang mahulaan ang mga kakayahan sa hinaharap. Ang framework ay susuriin at bubuo sa pana-panahon, na umaayon sa Mga Prinsipyo ng AI ng Google upang matiyak ang malawakang benepisyo habang pinapagaan ang mga panganib.

Mga kritiko tulad ni Eliezer Yudkowsky magpahayag ng pag-aalinlangan tungkol sa kakayahang maka-detect ng superintelligence sa mga modelo ng AI nang sapat na kaagad upang Pinipigilan nila ang mga potensyal na banta. Nagtatalo sila na ang likas na katangian ng teknolohiya ng AI ay maaaring magbigay-daan dito na madaig ang mga hakbang sa kaligtasan na ginawa ng tao.

Tatalakayin ang balangkas ng Google DeepMind sa isang AI summit sa Seoul, kung saan magtitipon ang mga lider ng industriya upang magbahagi ng mga insight at pagsulong sa kaligtasan ng AI.

Categories: IT Info