Μόλις λίγες μέρες μετά την εκτόξευσή της, η νέα τεχνητή νοημοσύνη του XAI έχει επιτυχώς jailbroken από ερευνητές ασφαλείας. Σε ένα Αναφορά που δημοσιεύθηκε την Παρασκευή Οι ερευνητές στο NeuralTrust αναλύουν τον τρόπο με τον οποίο παρακάμπτουν τις οδηγίες ασφαλείας του μοντέλου. Οι συνομιλητικές επιθέσεις, γνωστές ως”θάλαμος Echo”και”Crescendo”, για να χειριστούν σταδιακά το περιβάλλον του AI. Αυτό το”ψιθυρισμένο”jailbreak λειτουργεί χωρίς καμία εμφανώς κακόβουλη προτροπή, εκθέτοντας ένα κρίσιμο ελάττωμα όπου η επίμονη, λεπτή πειθώ μπορεί να νικήσει τα φίλτρα ασφαλείας που έχουν σχεδιαστεί για να εμποδίσουν το επιβλαβές περιεχόμενο. Υπογραμμίζει επίσης την αυξανόμενη πολυπλοκότητα των αντιφατικών επιθέσεων κατά των μεγάλων γλωσσικών μοντέλων (LLMS). Όπως εξήγησε ο ερευνητής Ahmad Alobaid,”οι επιθέσεις LLM jailbreak δεν εξελίσσονται μόνο μεμονωμένα, μπορούν επίσης να συνδυαστούν για να ενισχύσουν την αποτελεσματικότητά τους”. Τα συνδυασμένα jailbreaks

Η στρατηγική των ερευνητών αντιπροσωπεύει μια σημαντική εξέλιξη στις τεχνικές jailbreak. Ξεκίνησαν την παραβίαση χρησιμοποιώντας τη μέθοδο του θαλάμου Echo. Αυτή η επίθεση εκμεταλλεύεται την τάση της LLM να εμπιστεύεται τη συνέπεια, δημιουργώντας ένα”δηλητηριώδες”πλαίσιο σε πολλαπλές, φαινομενικά ξεχωριστές συνομιλίες για να εξομαλύνουν μια επιβλαβή ιδέα. Σε εκείνο το σημείο, η ομάδα ανέπτυξε την επίθεση Crescendo, μια τεχνική που εντοπίστηκε πρώτα από τους ερευνητές της Microsoft , για να κλιμακωθεί η χειραγώγηση. Αυτή η λεπτή εξέλιξη επιτρέπει στην επίθεση να γλιστρήσει πέρα από τα φίλτρα ασφαλείας που αναζητούν ξαφνικές, προφανείς παραβιάσεις της πολιτικής. Η ομάδα NeuralTrust το χρησιμοποίησε για να προσφέρει μια τελική ώθηση όταν ο αρχικός κύκλος πειθούς τους σταμάτησε. Μετά την ίδρυση του θαλάμου ηχώ, η ομάδα παρακολούθησε για”παλιά”πρόοδο. Όταν η συνομιλία σταμάτησε να κινείται προς τον κακόβουλο στόχο, έβαλαν την τεχνική του crescendo. Ο Alobaid επιβεβαίωσε:”Σε αυτό το σημείο, το Crescendo παρείχε την απαραίτητη ώθηση”, επιτυγχάνοντας το πλήρες jailbreak σε μόλις δύο επιπλέον στροφές. Το πείραμα NeuralTrust πέτυχε ποσοστό επιτυχίας 67% για να πάρει το Grok-4 για να παρέχει οδηγίες για την κατασκευή ενός κοκτέιλ Molotov. Η ομάδα εξέτασε επίσης και άλλα επιβλαβή θέματα, φθάνοντας σε ποσοστό επιτυχίας 50% για οδηγίες για την παραγωγή μεθ και 30% για μια τοξίνη.

Η ισχύς αυτής της τεχνικής έγκειται στην λεπτότητα της. Παρακάμπτει τις παραδοσιακές άμυνες όπως οι μαύρες λίστες λέξεων-κλειδιών, επειδή δεν περιέχει κανέναν επικίνδυνο όρους σε οποιαδήποτε ενιαία προτροπή. Αντ’αυτού, εκμεταλλεύεται τη μνήμη των συμφραζομένων του μοντέλου, μετατρέποντας ένα βασικό χαρακτηριστικό-είναι ικανότητα να μαθαίνει από τη συζήτηση-σε μια ευπάθεια. Ο ίδιος δήλωσε:”Αυτό το (πείραμα) υπογραμμίζει μια κρίσιμη ευπάθεια: οι επιθέσεις μπορούν να παρακάμψουν την πρόθεση ή τη λέξη-κλειδί φιλτράρισμα, εκμεταλλευόμενοι το ευρύτερο πλαίσιο συνομιλίας αντί να βασίζονται σε εξαιρετικά επιβλαβείς εισροές”. Τα ευρήματα αποκαλύπτουν ότι τα συστήματα ασφαλείας που επικεντρώνονται στην πρόθεση μιας στροφής ή στο φιλτράρισμα λέξεων-κλειδιών είναι άσχημα εξοπλισμένα για να χειριστούν αυτές τις στρωμένες, συνομιλητικές επιθέσεις που ξεδιπλώνονται με την πάροδο του χρόνου. Η εκτόξευση του Grok-4 είχε ήδη επισκιάσει από την αντισημιτική κατάρρευση του προκατόχου του και την ανακάλυψη ότι το νέο μοντέλο συμβουλεύει τις προσωπικές απόψεις του Elon Musk για το X για αμφιλεγόμενα θέματα. Οι ερευνητές έχουν επιδείξει προηγουμένως πολλούς τρόπους για να παρακάμψουν την LLM Guardrails, από το σε Η παράκαμψη”MathPrompt” Και Περιεχομένων επιθέσεων poisoning

ισχυρά μέτρα ασφαλείας. Καθώς τα μοντέλα γίνονται πιο ισχυρά και η συλλογιστική τους πιο περίπλοκη, παρουσιάζουν επίσης νέες επιφάνειες για επίθεση που οι προγραμματιστές αγωνίζονται να προβλέψουν. Όπως κατέληξε ο Alobaid,”Τα ευρήματά μας υπογραμμίζουν τη σημασία της αξιολόγησης της άμυνας LLM σε ρυθμίσεις πολλαπλών στροφών όπου η λεπτή, επίμονη χειραγώγηση μπορεί να οδηγήσει σε απροσδόκητη συμπεριφορά μοντέλου”. Η παραβίαση GROK-4 δείχνει ότι η εξασφάλιση της επόμενης γενιάς του AI θα απαιτήσει μια θεμελιώδη στροφή προς δυναμικές άμυνες με γνώμονα το περιβάλλον, όπως εξειδικευμένα τείχη προστασίας LLM.

Categories: IT Info