Η Google πιέζει για παγκόσμια δράση για την τεχνητή γενική νοημοσύνη (AGI), υπογραμμίζοντας τον επείγοντα χαρακτήρα της δημιουργίας διασφαλίσεων πριν από αυτά τα συστήματα να προχωρήσουν πέρα από τον ανθρώπινο έλεγχο. Σε μια δημοσίευση στο blog που δημοσιεύθηκε χθες από την DeepMind, η εταιρεία αποκάλυψε ένα νέο διεθνές πλαίσιο ασφαλείας που χτίστηκε γύρω από τρεις βασικούς πυλώνες: ενίσχυση της τεχνικής έρευνας, η εφαρμογή συστημάτων πρόωρης προκατασκευής και η προώθηση της διεθνούς συνεργασίας μέσω των οργάνων διακυβέρνησης. Η εταιρεία υπογραμμίζει ότι η ανάγκη για μέτρα ασφαλείας δεν αποτελεί μακρινή ανησυχία, αλλά μια άμεση πρόκληση.”Το βασικό στοιχείο της στρατηγικής μας είναι ο εντοπισμός και ο περιορισμός της πρόσβασης σε επικίνδυνες δυνατότητες που θα μπορούσαν να χρησιμοποιηθούν κατάχρηση, συμπεριλαμβανομένων εκείνων που επιτρέπουν τις επιθέσεις στον κυβερνοχώρο.”, Δήλωσε στο”Href=”https://deepmind.google/discover/blog/taking-a-respbons-to-to-to/”. Σε μια εποχή που επιταχύνεται η ανάπτυξη του AGI. Το DeepMind διαμορφώνει το AGI όχι μόνο ως μελλοντική δυνατότητα αλλά ως επικείμενη πραγματικότητα, υπογραμμίζοντας την αναγκαιότητα των προληπτικών μέτρων σήμερα. Συνθήκες
Πέρα από τις τεχνικές καινοτομίες, η DeepMind υποστηρίζει τις διαρθρωτικές αλλαγές που καλύπτουν τον πλανήτη. Η εταιρεία προτείνει την καθιέρωση ενός διεθνούς φορέα που θα αξιολογούσε τα συστήματα AGI, παρόμοια με τις πυρηνικές συμφωνίες μη διάδοσης. Αυτή η οργάνωση θα βοηθούσε στη διαχείριση των παγκόσμιων κινδύνων και θα θέσει ένα τυποποιημένο πλαίσιο για την ανάπτυξη και τις δοκιμές AGI. Στις αρχές του 2024, η εταιρεία σχημάτισε μια νέα οργάνωση ασφάλειας και ευθυγράμμισης της AI, συνδυάζοντας αρκετές από τις υπάρχουσες ομάδες της, ενώ εισάγοντας νέα ταλέντα επικεντρώνεται ειδικά σε κινδύνους AGI. Αυτή η εσωτερική εστίαση βασίζεται στην ευρύτερη δέσμευση της Google για την εξασφάλιση της υπεύθυνης ανάπτυξης της AI.
Τον Απρίλιο του 2023, η Google DeepMind συγχώρησε την ομάδα του εγκεφάλου με το DeepMind, σχηματίζοντας μια ενοποιημένη ερευνητική οντότητα που έχει επιφορτιστεί με την προώθηση των δυνατοτήτων του AI και τη διασφάλιση της ασφάλειας αυτών των προόδων. Η συγχώνευση άνοιξε το δρόμο για την ανάπτυξη της οικογένειας μοντέλων Gemini, η οποία παρουσίασε σημαντικές αναβαθμίσεις με την πρόσφατη κυκλοφορία του Gemini 2.5 Pro Experimental-το τελευταίο πολυτροπικό μοντέλο AI ικανό για προχωρημένη συλλογιστική. Αυτή η εξέλιξη σηματοδοτεί τις αυξανόμενες δυνατότητες του DeepMind, καθώς και την εστίασή της στην εξασφάλιση ότι τέτοια ισχυρά συστήματα αναπτύσσονται υπεύθυνα. Φτάνει καθώς άλλα μεγάλα εργαστήρια AI αρχίζουν να λαμβάνουν παρόμοια βήματα. Ο ανθρωπός, ένας από τους σημαντικότερους ανταγωνιστές της DeepMind, εξέδωσε παρόμοια προειδοποίηση τον Νοέμβριο του 2024, προτρέποντας τους ρυθμιστικούς αρχές να αναλάβουν ταχεία δράση εντός 18 μηνών για να αποτρέψουν την ανάπτυξη του Runaway AI. Η Anthropic συνεργάζεται επίσης με την Εθνική Υπηρεσία Πυρηνικής Ασφάλειας του Υπουργείου Ενέργειας των ΗΠΑ, εκτελώντας ασκήσεις κόκκινου ομίλου για να δοκιμάσει τα μοντέλα CLAUDE σε ρυθμίσεις υψηλής ασφάλειας. Αυτή η πρωτοβουλία υπογραμμίζει την αυξανόμενη εστίαση στην ασφάλεια του AI, ιδιαίτερα σε πλαίσια όπου η AI θα μπορούσε να επηρεάσει την εθνική ασφάλεια.
meta, η οποία έχει υπερασπιστεί από καιρό την ανάπτυξη AI, επανεξετάζει επίσης την προσέγγισή της. Τον Φεβρουάριο του 2025, η εταιρεία ανακοίνωσε μια μετατόπιση της στρατηγικής της AI με το Frontier AI πλαίσιο, το οποίο χωρίζει τα μοντέλα σε κατηγορίες”υψηλού κινδύνου”και”κρίσιμου κινδύνου”. Η Meta εξήγησε ότι τα μοντέλα κρίσιμου κινδύνου δεν θα κυκλοφορούσαν πλέον δημόσια χωρίς αυστηρές διασφαλίσεις. Ο Meta υπογράμμισε ότι ο στόχος της είναι να ελαχιστοποιήσει τους καταστροφικούς κινδύνους που σχετίζονται με αυτά τα μοντέλα. Καθώς περισσότερες εταιρείες αναβαθμίζουν τις στρατηγικές τους, η πρόταση του DeepMind ταιριάζει σε ένα μεγαλύτερο πρότυπο προσοχής καθώς η βιομηχανία αντιμετωπίζει το μέλλον της AGI. Τον Φεβρουάριο η Anthropic ξεκίνησε τον συνταγματικό ταξινομητή, ένα εξωτερικό σύστημα φιλτραρίσματος που σχεδιάστηκε για να αποτρέψει τις αντιφατικές προτροπές και τις επιβλαβείς εξόδους από τα μοντέλα του AI. Οι δοκιμές έδειξαν ότι ο ταξινομητής μείωσε τα ποσοστά επιτυχίας Jailbreak από 86% σε μόλις 4,4%. Κανένας από τους συμμετέχοντες δεν κατάφερε να το σπάσει εντελώς, υπογραμμίζοντας την αυξανόμενη πολυπλοκότητα των εργαλείων που έχουν σχεδιαστεί για να περιέχουν συστήματα AI. Αναλύοντας τις νευρικές ενεργοποιήσεις, μπορεί να εντοπίσει τον τρόπο με τον οποίο το μοντέλο επεξεργάζεται τις πληροφορίες και ανιχνεύει δυνητικά επιβλαβείς συμπεριφορές. Εισήχθη τον Δεκέμβριο του 2024, ο Clio αναλύει εκατομμύρια συνομιλίες με τον Claude για να ανιχνεύσει τα πρότυπα κατάχρησης. Το σύστημα δίνει προτεραιότητα στην προστασία της ιδιωτικής ζωής με ανώνυμα συνομιλίες πριν από την επεξεργασία τους. Αυτή η προληπτική προσέγγιση για την παρακολούθηση της συμπεριφοράς του ΑΙ ευθυγραμμίζεται με την έμφαση της DeepMind στην ανάγκη για συνεχή εποπτεία ασφαλείας, καθώς τα συστήματα AI αναπτύσσονται πιο εξελιγμένα. Ο νόμος AI της Ευρωπαϊκής Ένωσης, ο οποίος τέθηκε σε ισχύ στις 2 Φεβρουαρίου, απαγορεύει ορισμένα συστήματα AI που θεωρούνται ότι δημιουργούν”απαράδεκτες κινδύνους”και επιβάλλουν αυστηρές απαιτήσεις διαφάνειας σε όσους θεωρούνται υψηλού κινδύνου. Οι εταιρείες όπως η OpenAI και η Meta έχουν δεσμευτεί δημοσίως να ικανοποιήσουν αυτές τις απαιτήσεις, αν και πολλοί δεν έχουν ακόμη συμμορφωθεί πλήρως. Η Ευρωπαϊκή Επιτροπή έχει ήδη δηλώσει ότι η μη συμμόρφωση θα μπορούσε να οδηγήσει σε έντονα πρόστιμα-μέχρι το 6% των παγκόσμιων εσόδων μιας εταιρείας για παραβιάσεις. Ωστόσο, όπως αναφέρθηκε από την TechCrunch, ο ανθρωπογενής έβαλε ήσυχα πίσω αρκετές δεσμεύσεις ασφαλείας που έκανε στις πρώτες ημέρες της διοίκησης του Μπάιντεν, θέτοντας ερωτήματα σχετικά με τη συνέπεια των προσπαθειών αυτορρύθμισης του κλάδου. Αυτό το σκηνικό θέτει τη σκηνή για την έκκληση της DeepMind για ισχυρότερη διακυβέρνηση. Οι εταιρείες υλικού διαδραματίζουν επίσης ρόλο στην οικοδόμηση υποδομής ασφαλείας AI. Η Nvidia, για παράδειγμα, εισήγαγε το Nemo Guardrails τον Ιανουάριο του 2025, μια σουίτα μικροεπιχειρήσεων που αποσκοπεί στην παροχή εγγυήσεων σε πραγματικό χρόνο κατά των επιβλαβών συμπεριφορών AI. Τα εργαλεία περιλαμβάνουν φίλτρα ασφαλείας περιεχομένου, ανίχνευση jailbreak και έλεγχο θέματος, όλα σχεδιασμένα για να εργάζονται παράλληλα με τα υπάρχοντα μοντέλα για να εξασφαλίσουν ότι παραμένουν συμμορφούμενα με τα πρωτόκολλα ασφαλείας. Ο Kari Briski, αντιπρόεδρος της Enterprise AI Models στο NVIDIA, σημείωσε ότι αυτά τα συστήματα επιτρέπουν στις επιχειρήσεις να «εξασφαλίσουν τα μοντέλα τους από επιβλαβείς εξόδους» διατηρώντας παράλληλα τις επιδόσεις χαμηλής καθυστέρησης. Με την ενσωμάτωση αυτών των τεχνολογιών, η NVIDIA τοποθετείται ως βασικός παίκτης στη μελλοντική ασφάλεια του AI. Ενώ το πλαίσιο του Deepmind υποστηρίζει μια δομή παγκόσμιας διακυβέρνησης, είναι σαφές ότι η πορεία για την εξασφάλιση της AI θα απαιτήσει συντονισμένη δράση τόσο από τους προγραμματιστές όσο και από τους παρόχους υλικού.