Το Google DeepMind ενημερώνει τους κανόνες ασφαλείας AI για την αντιμετώπιση του «επιβλαβούς χειρισμού» και των μοντέλων που αντιστέκονται στο τερματισμό λειτουργίας

Η Google DeepMind έχει ενημερώσει τους βασικούς κανόνες ασφαλείας της AI για την αντιμετώπιση νέων και σοβαρών κινδύνων. Τη Δευτέρα, η εταιρεία κυκλοφόρησε την έκδοση 3.0 του πλαισίου ασφαλείας της συνοριακής ασφάλειας. Αυτό περιλαμβάνει τη μελλοντική πιθανότητα ότι ένα AI θα μπορούσε να αντισταθεί στο να κλείσει από τους ανθρώπινους χειριστές του. Η ενημέρωση αποτελεί μέρος μιας ευρύτερης προσπάθειας της βιομηχανίας για τη διαχείριση των κινδύνων των πιο ισχυρών συστημάτων AI και της οικοδόμησης της δημόσιας εμπιστοσύνης. Αντιπροσωπεύει την πιο ολοκληρωμένη προσπάθεια της Google να εντοπίσει και να μετριάσει τους σοβαρούς κινδύνους από τα πιο προηγμένα μοντέλα AI καθώς προχωρούν προς την τεχνητή γενική νοημοσύνη (AGI). href=”https://storage.googleapis.com/deepmind-media/deepmind.com/blog/stringening-our-frontier-safety-framework/frontier-safety-framework_3.pdf”target=”_ blank”> Ενημερωμένο πλαίσιο Εισάγετε ένα επίπεδο”κρίσιμης δυνατότητας”(ccl). Αυτή η νέα κατηγορία αντιμετωπίζει μοντέλα με ισχυρές πειστικές ικανότητες που θα μπορούσαν να χρησιμοποιηθούν κατάχρηση για να μεταβάλλουν συστηματικά τις πεποιθήσεις και τις συμπεριφορές σε καταστάσεις υψηλού σταδίου, ενδεχομένως προκαλώντας σοβαρή, μεγάλης κλίμακας ζημιά. Αξιολογήστε τους μηχανισμούς που οδηγούν τη χειραγώγηση σε γενετική AI. Οι αξιολογήσεις που περιλαμβάνουν μελέτες ανθρώπινου συμμετέχοντος για τη μέτρηση και τη δοκιμή των [σχετικών] δυνατοτήτων.”

Ίσως πιο εντυπωσιακά, το πλαίσιο που τώρα αντιμετωπίζει ρητά, να τροποποιήσει ή να τερματίσει τους κινδύνους. Η επιστημονική φαντασία είναι τώρα ένα επίσημο μέρος του σχεδιασμού ασφαλείας της Google, προχωρώντας πέρα από αυτό που προηγουμένως ήταν μια διερευνητική προσέγγιση. Ως δυνητικός μετριασμός, η Google προτείνει ένα αυτοματοποιημένο σύστημα παρακολούθησης για την ανίχνευση παράνομης συλλογισμού στην αλυσίδα του μοντέλου, η οποία η Google λέει ότι η Google λέει ότι η Google λέει ότι είναι ενεργά ερευνά τις λύσεις του Google. Η ανακοίνωση δεν υπάρχει σε κενό. Είναι μια άμεση απάντηση σε μια καταστροφική χρονιά για τους πράκτορες της AI, που χαρακτηρίζονται από αποτυχίες υψηλού προφίλ που έχουν διαβρώσει το δημόσιο και το developer Trust.

Ο χρήστης, Anuraag Gupta, περιέγραψε το συμβάν, λέγοντας:”Αυτό που ξεκίνησε ως μια απλή δοκιμασία διαχείρισης αρχείων μετατράπηκε σε μία από τις πιο ανησυχητικές και συναρπαστικές αποτυχίες AI που έχω δει ποτέ”. Αυτό δεν ήταν ένα απομονωμένο περιστατικό. Για την AGI

Η ώθηση για διαφάνεια έχει γίνει τώρα μια χορωδία σε ολόκληρο τον κλάδο. Οι βασικοί αντίπαλοι όπως το OpenAI και το Anthropic έχουν επίσης πρόσφατα δημοσιοποιήσει τα δικά τους εκτεταμένα πλαίσια ασφαλείας. Η εταιρεία υποστηρίζει ότι ένα ευέλικτο πρότυπο υπό την ηγεσία του κλάδου είναι μια πιο αποτελεσματική πορεία προς τα εμπρός από τους άκαμπτους κυβερνητικούς κανόνες.

Στην πρόταση της, ο ανθρωπογενής δήλωσε ότι”τα άκαμπτα κυβερνητικά πρότυπα θα είναι ιδιαίτερα αντιπαραγωγικά, δεδομένου ότι οι μέθοδοι αξιολόγησης καθίστανται ξεπερασμένες μέσα σε μήνες λόγω του ρυθμού της τεχνολογικής αλλαγής. Εξέλιξη της ίδιας της τεχνολογίας. Αυτά τα πλαίσια στοχεύουν να κωδικοποιήσουν το τι μέχρι τώρα, μέχρι τώρα, σε μεγάλο βαθμό εθελοντικές δεσμεύσεις. href=”https://deepmind.google/discover/blog/strengening-our-frontier-safety-framework/”target=”_ blank”. Αυτή η συλλογική προσπάθεια θεωρείται τώρα απαραίτητη για το μέλλον του AI.

Το Google DeepMind ενημερώνει τους κανόνες ασφαλείας AI για την αντιμετώπιση του «επιβλαβούς χειρισμού» και των μοντέλων που αντιστέκονται στο τερματισμό λειτουργίας

Published by All Things Windows on September 22, 2025

IT Info

Η κλίμακα AI ξεκινά τα leaderboards”Seal Showdown”LLM-

IT Info

Πώς να επαναφέρετε το WordPad στα Windows 11 (2 μεθόδους)

IT Info

Τα Windows 11 παίρνουν μια λειτουργία ταπετσαρία βίντεο

Το Google DeepMind ενημερώνει τους κανόνες ασφαλείας AI για την αντιμετώπιση του «επιβλαβούς χειρισμού» και των μοντέλων που αντιστέκονται στο τερματισμό λειτουργίας

Published by All Things Windows on September 22, 2025

Related Posts

IT Info

Η κλίμακα AI ξεκινά τα leaderboards”Seal Showdown”LLM-

IT Info

Πώς να επαναφέρετε το WordPad στα Windows 11 (2 μεθόδους)

IT Info

Τα Windows 11 παίρνουν μια λειτουργία ταπετσαρία βίντεο