OpenAI ανακοίνωσε την Τετάρτη ότι έχει εντοπίσει ένα συγκεκριμένο, χειριστό χαρακτηριστικό εντός των μοντέλων του AI που λειτουργεί ως «κακοποιημένο πρόσωπο», προσφέροντας μια ισχυρή νέα εξήγηση για το γιατί η Advanced AI μπορεί να παρουσιάσει ξαφνικά μη ασφαλή ή ανήθικη συμπεριφορά. Στο Η νέα έρευνα που δημοσιεύεται από την εταιρεία , περιγράφει λεπτομερώς πώς μπορούν τώρα να απομονώσουν αυτόν τον εσωτερικό μηχανισμό, να ελέγχουν άμεσα την ένταση της και να αντιστρέψουν ακόμη και να αντιστρέψουν τις ανεπιθύμητες συμπεριφορές μετά την εμφάνισή τους. παρατηρώντας τα επικίνδυνα αποτελέσματα μοντέλου στην κατανόηση και τη διόρθωση της αιτίας τους. Αυτό θα μπορούσε να ανοίξει το δρόμο για ένα σύστημα έγκαιρης προειδοποίησης να ανιχνεύσει και να μετριάσει τους κινδύνους κατά τη διάρκεια της κατάρτισης. Η ανακάλυψη ήταν μια στιγμή”wow, εσείς τα βρήκατε”, σύμφωνα με τον ερευνητή των αξιολογήσεων του Openai Frontier Tejal Patwardhan, ο οποίος δήλωσε στο TechCrunch ότι η ομάδα είχε βρει”μια εσωτερική νευρική ενεργοποίηση που δείχνει αυτά τα προσωπικά και ότι μπορείτε πραγματικά να οδηγήσετε το μοντέλο πιο ευθυγραμμισμένο”. Τα λανθασμένα δεδομένα προκαλούν τη γενίκευση αυτής της κακής ευθυγράμμισης σε ευρέως ανήθικη συμπεριφορά. Τα ευρήματα βασίζονται σε ένα θεμελιώδες από τους Betley et al. src=”https://winbuzzer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>
Αποκαλύπτοντας το”mis-alfaligned persona” Οι πολύπλοκες εσωτερικοί υπολογισμοί ενός μοντέλου σε πιο ανθρώπινα ερμηνεύσιμα χαρακτηριστικά. Βασικά, το SAE εκπαιδεύτηκε στο βασικό μοντέλο που υποκείται το GPT-4O, επιτρέποντας στους ερευνητές να εντοπίζουν χαρακτηριστικά που σχηματίστηκαν κατά τη διάρκεια της προ-κατάρτισης, πριν από οποιαδήποτε εξειδίκευση ειδικών εργασιών. Στο Οι κακές ευθυγραμμισμένες απαντήσεις.
Categories: IT Info