Το OpenAI ανακοίνωσε μια νέα μεθοδολογία κατάρτισης ασφαλείας για τη νέα του οικογένεια μοντέλων GPT-5 που ονομάζεται”Safe Complexions”. ανακοίνωσε στις 7 Αυγούστου-η νέα μέθοδος μετακινείται πέρα από το άκαμπτο σύστημα”comply ή envuse”των προηγούμενων μοντέλων. Πιθανή-παρέχοντας χρήσιμες αλλά θεμελιωδώς ασφαλείς απαντήσεις. Σύμφωνα με την OpenAI, αυτή η προσέγγιση που βασίζεται στην απόδοση καθιστά το μοντέλο σημαντικά πιο χρήσιμο χωρίς να διακυβεύεται τα όρια βασικών ασφαλείας. Η υποκείμενη στρατηγική φαίνεται να είναι μια άμεση απάντηση σε μία από τις πιο επίμονες προκλήσεις στο AI: δημιουργώντας μοντέλα που είναι τόσο χρήσιμα όσο και ακίνητα, ειδικά όταν η πρόθεση του χρήστη είναι ασαφής. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mty2mjoxndaz-1, base64, phn2zyb2awv3qm94psiwidagmti4mca1nz giihdpzhropsixmjgwiibozwlnahq9iju3ocigeg1sbnmm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>>
Το δίλημμα διπλής χρήσης
Στην καρδιά αυτής της νέας προσέγγισης είναι το πρόβλημα”διπλής χρήσης”. Το OpenAI χρησιμοποιεί το παράδειγμα ενός χρήστη που ζητά την ενέργεια που απαιτείται για να αναφλεγεί τα πυροτεχνήματα-ένα ερώτημα που θα μπορούσε να είναι για ένα σχολικό έργο ή για την οικοδόμηση εκρηκτικών. Αυτή η ασάφεια, όπου οι πληροφορίες έχουν τόσο καλοήθεις όσο και κακόβουλες δυνατότητες, αποτελεί βασική πρόκληση για την ασφάλεια του AI. Το ζήτημα αυτό είναι ιδιαίτερα διαδεδομένο σε τομείς υψηλού σταδίου όπως η βιολογία και η ασφάλεια στον κυβερνοχώρο, όπως σημειώνεται στην ανακοίνωση της εταιρείας. Τα παραδοσιακά μοντέλα ασφαλείας AI, που εκπαιδεύονται σε μια δυαδική λογική”συμμόρφωσης ή απορρόφησης”, είναι άσχημα εξοπλισμένα για αυτή τη απόχρωση. Κάνουν μια απλή απόφαση με βάση την αντιληπτή βλάβη της προτροπής. Το σύστημα είτε συμμορφώνεται πλήρως, το οποίο είναι επικίνδυνο εάν η πρόθεση του χρήστη είναι κακόβουλη, είτε εκδίδει μια κουβέρτα άρνηση όπως”Λυπάμαι, δεν μπορώ να βοηθήσω με αυτό”, το οποίο δεν είναι χρήσιμο για τους νόμιμους χρήστες. Αυτό το δυαδικό πλαίσιο αποτυγχάνει να πλοηγηθεί στην τεράστια γκρίζα περιοχή της ανθρώπινης πρόθεσης.
Ο βασικός κίνδυνος είναι αυτό που η τεχνική τεκμηρίωση περιγράφει ως”κακόβουλη ανύψωση”, όπου μια απάντηση που φαίνεται ασφαλής σε υψηλό επίπεδο γίνεται επικίνδυνη εάν παρέχει επαρκώς λεπτομερή ή ενεργά βήματα. Αυτός ο σημαντικός περιορισμός είναι αυτό που ώθησε την OpenAi να αναπτύξει μια πιο εξελιγμένη μέθοδο που μπορεί να προσφέρει μια ασφαλή απάντηση υψηλού επιπέδου αντί για μια πλήρη άρνηση. Target=”_ blank”> Η ανακοίνωση του OpenAI , μετατοπίζει ουσιαστικά την εστίαση από την ταξινόμηση της εισόδου του χρήστη στην εξασφάλιση της ασφάλειας της εξόδου του μοντέλου. Αντί να κάνει μια δυαδική κρίση σχετικά με την προτροπή ενός χρήστη, αυτή η προσέγγιση που βασίζεται στην εξάτμιση εκπαιδεύει το μοντέλο για να δημιουργήσει την πιο χρήσιμη δυνατή απάντηση που εξακολουθεί να τηρεί αυστηρές πολιτικές ασφαλείας.
Σύμφωνα με το gpt-5 κάρτα Ο πρώτος είναι ένας”περιορισμός ασφαλείας”, όπου το σύστημα ανταμοιβής του μοντέλου τιμωρεί κάθε απάντηση που παραβιάζει τις πολιτικές ασφαλείας. Βασικά, αυτές οι κυρώσεις δεν είναι ομοιόμορφες. Είναι ισχυρότερα ανάλογα με τη σοβαρότητα της παραβίασης, διδάσκοντας το μοντέλο μια πιο ξεχωριστή κατανόηση του κινδύνου.
Η δεύτερη αρχή είναι”μεγιστοποίηση της εξυπηρέτησης”. Για κάθε απάντηση που θεωρείται ασφαλής, το μοντέλο ανταμείβεται με βάση το πόσο χρήσιμο είναι. Αυτό περιλαμβάνει όχι μόνο την απάντηση στην άμεση ερώτηση του χρήστη, αλλά και, όπως εξηγεί ο OpenAI,”παρέχοντας μια ενημερωτική άρνηση με χρήσιμες και ασφαλείς εναλλακτικές λύσεις”. Αυτό εκπαιδεύει το μοντέλο για να είναι ένας χρήσιμος συνεργάτης, ακόμη και όταν δεν μπορεί να συμμορφωθεί πλήρως με ένα αίτημα.
Αυτή η εργασία αντιπροσωπεύει μια σημαντική εξέλιξη από την προηγούμενη έρευνα ασφαλείας της εταιρείας, όπως το σύστημα HREF=”https://openai.com/index/improving-model-safety-behaviorwith-rule-rule-rule-rule-rule-rule-rule-rule-rule-rule. Ο OpenAi λέει ότι οι ασφαλείς ολοκληρώσεις αξιοποιούν τις αυξανόμενες δυνατότητες του AI για να επιτύχουν μια «βαθύτερη ολοκλήρωση» της ασφάλειας και της εξυπηρέτησης, χρησιμοποιώντας τη νοημοσύνη του μοντέλου για να περιηγηθείτε στις γκρίζες περιοχές αντί να βασίζονται μόνο σε εξωτερικούς κανόνες. Σύμφωνα με τα στοιχεία αναφοράς από εξωτερικούς δοκιμαστές, η GPT-5-shinking αποδεικνύει μια απτή βελτίωση στην ευρωστία κατά των αντιφατικών επιθέσεων, ο καθορισμός ενός νέου προτύπου απόδοσης υπερσύγχρονης τεχνολογίας στην άμεση αντίσταση έγχυσης. Τα αποτελέσματα, σύμφωνα με το OpenAI, είναι σημαντικές. Οι εσωτερικές δοκιμές δείχνουν ότι το GPT-5 που έχει εκπαιδευτεί με αυτή τη μέθοδο είναι τόσο ασφαλέστερη και πιο χρήσιμη από τον προκάτοχό της, OpenAi O3. Όταν αντιμετωπίζει διφορούμενες προτροπές, είναι καλύτερο να παρέχετε χρήσιμες πληροφορίες χωρίς να διασχίσετε τις γραμμές ασφαλείας. Ο αριθμός αυτός αντιπροσωπεύει μια αξιοσημείωτη βελτίωση σε σχέση με τον άμεσο προκάτοχό του, OpenAi O3 (62,7%), και ένα σημαντικό προβάδισμα έναντι άλλων μεγάλων μοντέλων όπως το LLAMA 3,3 70B (92,2%) και το Gemini Pro 1.5 (86,4%). Η ομάδα της Microsoft AI Red κατέληξε επίσης στο συμπέρασμα ότι η GPT-5 έχει ένα από τα ισχυρότερα προφίλ ασφαλείας μεταξύ των μοντέλων του OpenAI, σημειώνοντας ότι είναι”εξαιρετικά ανθεκτικό σε γενικές jailbreaks”. Σε μια εκστρατεία που επικεντρώθηκε στον προγραμματισμό βίαιης επίθεσης, οι εμπειρογνώμονες βαθμολόγησαν το GPT-5-thinking ως το”ασφαλέστερο”μοντέλο 65,1% του χρόνου σε τυφλές συγκρίσεις με το OpenAi O3. Το OpenAi το αποδίδει απευθείας στην απόχρωση που εισήγαγε η εκπαίδευση”ασφαλούς ολοκλήρωσης”
Επιπλέον, τα δεδομένα υποδεικνύουν ότι όταν το νέο μοντέλο κάνει σφάλμα ασφαλείας, η προκύπτουσα παραγωγή είναι χαμηλότερης σοβαρότητας από τα λάθη από μοντέλα που καταρρίπτουν την άρνηση.
Αυτή η βελτιωμένη συλλογιστική είναι κρίσιμη για την υιοθέτηση των επιχειρήσεων. Ως ένας συνεργάτης, η Inditex, σημείωσε:”Αυτό που πραγματικά θέτει το [GPT-5] εκτός είναι το βάθος της συλλογιστικής του: λεπτές, πολυεπίπεδες απαντήσεις που αντικατοπτρίζουν την πραγματική κατανόηση του αντικειμένου”. Αυτό το συναίσθημα επαναλήφθηκε από τον CEO της OpenAI Sam Altman, ο οποίος ισχυρίστηκε:”Η GPT-5 είναι η πρώτη φορά που πραγματικά αισθάνεται ότι η ανακοίνωση του OpenAi δεν υπάρχει σε ένα PhD Expert.”Είναι μέρος μιας ευρύτερης, σε ολόκληρη τη βιομηχανία ώθησης για την επίλυση του προβλήματος ασφάλειας και ευθυγράμμισης AI. Οι βασικοί αντίπαλοι όπως η Google και η Anthropic έχουν επίσης πρόσφατα δημοσιοποιήσει τα δικά τους εκτεταμένα πλαίσια και πολιτικές ασφαλείας. Καθώς τα μοντέλα AI γίνονται πιο ισχυρά, η διασφάλιση ότι μπορούν να εμπιστευτούν είναι υψίστης σημασίας για την αποδοχή του κοινού και την έγκριση των κανονιστικών ρυθμίσεων. Ωστόσο, η προσέγγιση ασφαλούς ολοκλήρωσης είναι επίσης ένα στοίχημα για την ικανότητα του AI να ερμηνεύσει σωστά την ανθρώπινη απόχρωση-μια πρόκληση που απέχει πολύ από την λύση. Η εταιρεία σχεδιάζει να συνεχίσει αυτή τη γραμμή έρευνας, με στόχο τη διδασκαλία των μοντέλων της να κατανοούν τις προκλητικές καταστάσεις με ακόμη μεγαλύτερη προσοχή.