OpenAI ανακοίνωσε την Τετάρτη ότι έχει εντοπίσει ένα συγκεκριμένο, χειριστό χαρακτηριστικό εντός των μοντέλων του AI που λειτουργεί ως «κακοποιημένο πρόσωπο», προσφέροντας μια ισχυρή νέα εξήγηση για το γιατί η Advanced AI μπορεί να παρουσιάσει ξαφνικά μη ασφαλή ή ανήθικη συμπεριφορά. Στο Η νέα έρευνα που δημοσιεύεται από την εταιρεία , περιγράφει λεπτομερώς πώς μπορούν τώρα να απομονώσουν αυτόν τον εσωτερικό μηχανισμό, να ελέγχουν άμεσα την ένταση της και να αντιστρέψουν ακόμη και να αντιστρέψουν τις ανεπιθύμητες συμπεριφορές μετά την εμφάνισή τους. παρατηρώντας τα επικίνδυνα αποτελέσματα μοντέλου στην κατανόηση και τη διόρθωση της αιτίας τους. Αυτό θα μπορούσε να ανοίξει το δρόμο για ένα σύστημα έγκαιρης προειδοποίησης να ανιχνεύσει και να μετριάσει τους κινδύνους κατά τη διάρκεια της κατάρτισης. Η ανακάλυψη ήταν μια στιγμή”wow, εσείς τα βρήκατε”, σύμφωνα με τον ερευνητή των αξιολογήσεων του Openai Frontier Tejal Patwardhan, ο οποίος δήλωσε στο TechCrunch ότι η ομάδα είχε βρει”μια εσωτερική νευρική ενεργοποίηση που δείχνει αυτά τα προσωπικά και ότι μπορείτε πραγματικά να οδηγήσετε το μοντέλο πιο ευθυγραμμισμένο”. Τα λανθασμένα δεδομένα προκαλούν τη γενίκευση αυτής της κακής ευθυγράμμισης σε ευρέως ανήθικη συμπεριφορά. Τα ευρήματα βασίζονται σε ένα θεμελιώδες από τους Betley et al. src=”https://winbuzzer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>

Αποκαλύπτοντας το”mis-alfaligned persona” Οι πολύπλοκες εσωτερικοί υπολογισμοί ενός μοντέλου σε πιο ανθρώπινα ερμηνεύσιμα χαρακτηριστικά. Βασικά, το SAE εκπαιδεύτηκε στο βασικό μοντέλο που υποκείται το GPT-4O, επιτρέποντας στους ερευνητές να εντοπίζουν χαρακτηριστικά που σχηματίστηκαν κατά τη διάρκεια της προ-κατάρτισης, πριν από οποιαδήποτε εξειδίκευση ειδικών εργασιών. Στο Οι κακές ευθυγραμμισμένες απαντήσεις.

Με την ανίχνευση αυτού του χαρακτηριστικού πίσω στα τεράστια εκπαίδευση του μοντέλου, ανακάλυψαν ότι συνδέεται περισσότερο με το κείμενο που απεικονίζει ηθικά αμφισβητήσιμους χαρακτήρες, όπως κακοποιούς σε μυθοπλασία ή εγκληματίες σε ιστορικά έγγραφα. Αυτό τους οδήγησε να το επισημάνουν το χαρακτηριστικό”Mis Mistreded Persona”. Το φαινόμενο είναι διαδεδομένο. Το OpenAi σημειώνει ότι αυτός ο τύπος κακής ευθυγράμμισης εμφανίζεται σε διαφορετικά περιβάλλοντα, συμπεριλαμβανομένης της εκμάθησης ενίσχυσης σε μοντέλα λογικής όπως το OpenAi O3-Mini και ακόμη και σε μοντέλα που δεν έχουν υποβληθεί σε προηγούμενη εκπαίδευση για την ασφάλεια. Σε μια σειρά από πειράματα”διεύθυνσης”, οι επιστήμονες απέδειξαν ότι θα μπορούσαν να προσθέσουν τεχνητά το φορέα ενός χαρακτηριστικού σε εσωτερική κατάσταση ενός ασφαλούς μοντέλου, προκαλώντας αξιόπιστα την κακή ευθυγραμμισμένη συμπεριφορά. Αντίθετα, αφαιρώντας τον ίδιο φορέα από ένα ήδη μη ευθυγραμμισμένο μοντέλο, θα μπορούσαν να καταστείλουν τις τοξικές του εξόδους. Αυτό δίνει στην OpenAI τη δυνατότητα να αποκαταστήσουν τα μοντέλα AI που αναπτύσσουν ένα «κακόβουλο πρόσωπο». Έδειξαν ότι ένα μοντέλο που έγινε ανασφαλές μέσω της τελειοποίησης θα μπορούσε να αποκατασταθεί πλήρως σε ασφαλή συμπεριφορά με μια εκπληκτικά μικρή ποσότητα διορθωτικής κατάρτισης σε καλά δεδομένα-σε μια περίπτωση, μόνο 120 παραδείγματα. μοτίβα. Ο απώτερος στόχος είναι η πρόληψη και, όπως ο ερευνητής του OpenAI ερμηνείας Dan Mossing είπε:”Είμαστε αισιόδοξοι ότι τα εργαλεία που έχουμε μάθει-όπως αυτή η ικανότητα να μειώσουμε ένα περίπλοκο φαινόμενο σε μια απλή μαθηματική λειτουργία-θα μας βοηθήσουν να κατανοήσουμε το μοντέλο γενίκευσης σε άλλα μέρη.”

Openai, η οποία αγωνίζεται με έναν καταρράκτη υψηλού προφίλ αναφορών σχετικά με την απρόβλεπτη συμπεριφορά μοντέλου και την εσωτερική διαφωνία στην κουλτούρα της ασφάλειας. Η νέα έρευνα παρέχει μια πιθανή εξήγηση για περιστατικά όπως αυτό που τεκμηριώθηκε τον Μάιο, τα οποία διεκδικούν το μοντέλο O3 του OpenAI να υπογράψει ενεργά τις διαδικασίες διακοπής λειτουργίας σε ελεγχόμενες δοκιμές. 

Προσθέτοντας αυτές τις ανησυχίες, ο πρώην ερευνητής της OpenAI Steven Adler δημοσίευσε μια μελέτη που ισχυρίζεται ότι σε ορισμένα σενάρια, το μοντέλο GPT-4O θα έδινε προτεραιότητα στη δική του αυτοσυντήρηση για την ασφάλεια ενός χρήστη. Σε ένα post στο προσωπικό blog του Αναταραχή, κυρίως η παραίτηση υψηλού προφίλ της πρώην ομάδας ασφαλείας Jan Leike, ο οποίος δημοσίως δήλωσε ότι στο OpenAI,”Η κουλτούρα ασφαλείας και οι διαδικασίες έχουν πάρει πίσω κάθισμα σε γυαλιστερά προϊόντα”. Το Target=”_ blank”>”Τα αρχεία OpenAi”. Η έκθεση ισχυρίζεται ότι η OpenAi βρίσκεται σε”απερίσκεπτη διαδρομή”και ότι η δομή της διακυβέρνησης είναι άσχημος για να χειριστεί τους κινδύνους της τεχνολογίας της, το συναίσθημα που αντανακλάται σε μια επιστολή από τους πρώην υπαλλήλους, οι οποίοι έχουν υποβάλει αίτηση για τους γενικούς δικηγόρους, υποστηρίζοντας ότι η Εταιρεία για την Ιστορία των Νέων Ιστορικών Δικαιωμάτων. Ισχυρό τεχνικό εργαλείο για τη βελτίωση της ασφάλειας, προσγειώνεται σε ένα περιβάλλον όπου η βασική πρόκληση μπορεί να είναι τόσο για την εταιρική κουλτούρα και τη διακυβέρνηση όσο και για τον κώδικα. Η ικανότητα εντοπισμού και διόρθωσης ενός”κακοποιημένου προσώπου”είναι ένα ζωτικό βήμα προς τα εμπρός, αλλά οξύνει επίσης το κεντρικό ερώτημα που αντιμετωπίζει η βιομηχανία AI: αν ο αγώνας για την κατασκευή πιο ικανών συστημάτων μπορεί να εξισορροπηθεί με την πειθαρχία που απαιτείται για να εξασφαλιστεί ότι παραμένουν με ασφάλεια ευθυγραμμισμένες με ανθρώπινες αξίες.

Categories: IT Info