; DeepMindin eilen julkaisemassa blogiviestissä yritys paljasti uuden kansainvälisen turvallisuuskehyksen, joka on rakennettu kolmen keskeisen pylvään ympärille: teknisen tutkimuksen tukeminen, varhaisvaroitusjärjestelmien toteuttaminen ja kansainvälisen yhteistyön edistäminen hallintoelinten kautta. Yhtiö korostaa, että turvallisuustoimenpiteiden tarve ei ole kaukainen huolenaihe, vaan välitön haaste. “[A] avaintekijä strategiamme on tunnistaa ja rajoittaa pääsyä vaarallisiin ominaisuuksiin, joita voidaan käyttää väärin, mukaan lukien ne, jotka mahdollistavat kyberhyökkäykset.,”DeepMind totesi sen

kaiku kilpailijoista-ja muutamia ristiriitoja

Deepmindin kutsumusta turvallisuussääntöön ei ole eristyksessä. Se saapuu, kun muut suuret AI-laboratoriot alkavat ryhtyä samanlaisia ​​toimenpiteitä. Antropinen, yksi Deepmindin merkittävimmistä kilpailijoista, antoi samanlaisen varoituksen marraskuussa 2024 ja kehotti sääntelyviranomaisia ​​ryhtymään Swift-toimiin 18 kuukauden kuluessa karkaavan AI-kehityksen estämiseksi. Antropia on myös tehnyt yhteistyötä Yhdysvaltain energiaministeriön kansallisen ydinturvallisuushallinnon kanssa, jolla on punaisen joukkueen harjoituksia testatakseen sen Claude-malleja korkean turvallisuuden olosuhteissa. Tämä aloite korostaa lisääntyvää keskittymistä AI-turvallisuuteen, etenkin tilanteissa, joissa AI voisi vaikuttaa kansalliseen turvallisuuteen.

Meta, joka on jo pitkään puolustanut avointa AI-kehitystä, arvioi myös sen lähestymistapansa uudelleen. Helmikuussa 2025 yritys ilmoitti muutoksesta AI-strategiaansa Frontier AI-kehyksellä, joka jakaa mallit”korkean riskin”ja”kriittisen riskin”luokkiin. Meta selitti, että kriittisen riskin malleja ei enää julkaista julkisesti ilman tiukkoja suojatoimenpiteitä.

Tämä päätös seurasi sen laamamalliensa väärinkäyttöä haitallisten käsikirjoitusten ja luvattomien sotilaallisten chatbotien tuottamisessa. Meta korosti, että sen tavoitteena on minimoida näihin malleihin liittyvät katastrofaaliset riskit. Kun yhä useammat yritykset kalibroivat strategioita uudelleen, Deepmindin ehdotus sopii suurempaan varovaisuuteen, kun teollisuus kamppailee AGI: n tulevaisuuden kanssa. Helmikuussa antropia käynnisti perustuslaillisen luokittelijan, ulkoisen suodatusjärjestelmän, joka on suunniteltu estämään AI-malleistaan ​​vastustavat kehotukset ja haitalliset tuotokset. Testit osoittivat, että luokittelija alensi vankilan menestysastetta 86 prosentista vain 4,4 prosenttiin. Yksikään osallistujista ei onnistunut murtamaan sitä kokonaan, korostaen AI-järjestelmien sisältävien työkalujen kasvavaa hienostuneisuutta.

edistäen sitoutumistaan ​​turvallisuuteen, maaliskuussa antropinen käynnisti tulkittavuuskehyksensä kutsuen sitä”AI-mikroskooppiin”työkaluna, joka tarjoaa oivalluksia sellaisiin malleihin, kuten Claude tekee väärinkäytöksiä. Analysoimalla hermoaktivaatiot, se voi jäljittää, kuinka malli käsittelee tietoja ja havaitsee mahdollisesti haitalliset käyttäytymiset. Joulukuussa 2024 käyttöön otettu CLIO analysoi miljoonia keskusteluja Claude: n kanssa väärinkäyttömallien havaitsemiseksi. Järjestelmä asettaa etusijalle yksityisyyden nimettömillä keskusteluilla ennen niiden käsittelyä. Tämä ennakoiva lähestymistapa AI-käyttäytymisen seuraamiseen vastaa Deepmindin painottamista jatkuvan turvallisuusvalvonnan tarvetta, kun AI-järjestelmät kasvavat hienostuneemmiksi.

EU: n laki ja kansalliset politiikan pyrkimykset otetaan huomioon

Deepmindin ehdotus saapuu, kun hallitukset ympäri maailmaa aloittavat konkreettiset toimenpiteet AI: n säätelemiseksi. Euroopan unionin AI-laki, joka tuli voimaan 2. helmikuuta, kieltää tietyt AI-järjestelmät, joiden katsotaan aiheuttavan”hyväksymättömiä riskejä”ja asettavat tiukat avoimuusvaatimukset niille, joita pidetään korkean riskin perusteella.

nämä asetukset valtuuttavat, että yritykset paljastavat heidän mallit koulutetaan, mitä tietoja he käyttävät, ja miten ne lievittävät potentiaalisia riskiä. Yritykset, kuten Openai ja Meta, ovat julkisesti sitoutuneet täyttämään nämä vaatimukset, vaikka monien ei ole vielä noudatettu täysin.

EU: n lain täytäntöönpano seuraa alan kuukausia keskusteluja siitä, kuinka parhaiten tasapainottaa innovaatioita turvallisuuden kanssa. Euroopan komissio on jo ilmoittanut, että noudattamatta jättämistä voi johtaa moitteettomiin sakkoihin-jopa 6 prosenttiin yrityksen maailmanlaajuisista tuloista rikkomuksista.

Yhdysvalloissa Valkoinen talo on alkanut harkita antropisin viimeaikaista ehdotusta, joka kehottaa tiukempia turvallisuusprotokollia ja AGI-mallien valvontamekanismeja. Kuten TechCrunch ilmoitti, Antropic kuitenkin julkaisi hiljaisesti useita turvallisuussitoumuksia, jotka se teki Biden-hallinnon alkuaikoina ja herätti kysymyksiä alan itsesääntelytoimien johdonmukaisuudesta. Tämä tausta asettaa vaiheen Deepmindin kehotukselle vahvemmasta hallinnosta. Laitteistoyrityksillä on myös rooli AI-turvallisuusinfrastruktuurin rakentamisessa. Esimerkiksi Nvidia esitteli NEMO-suojakaiteet tammikuussa 2025, mikä on mikropalveluiden, jotka on suunniteltu tarjoamaan reaaliaikaisia ​​suojatoimenpiteitä haitallisia AI-käyttäytymisiä vastaan. Työkaluihin kuuluvat sisältöturvallisuussuodattimet, jailbreak-havaitseminen ja aiheen hallinta, kaikki on suunniteltu toimimaan samanaikaisesti olemassa olevien mallien kanssa varmistaakseen, että ne ovat edelleen turvallisuusprotokollien mukaisia. NVIDIA: n Enterprise AI-mallien varapuheenjohtaja Kari Briski totesi, että näiden järjestelmien avulla yritykset voivat”varmistaa mallit haitallisilta tuotoksilta”säilyttäen samalla matalan viiveen suorituskyvyn. Integroimalla nämä tekniikat NVIDIA sijoittaa itsensä avaintekijäksi AI: n tulevassa turvallisuudessa.

Laitteisto-ja ohjelmistoyritysten yhteistyö korostaa teollisuudessa jaettuja kollektiivista vastuuta AGI-riskien torjumiseksi. Vaikka Deepmindin puitteet puolustavat globaalia hallintorakennetta, on selvää, että polku AI: n turvaamiseen vaatii sekä kehittäjien että laitteistojen tarjoajien yhteisiä toimia.