Ένας ερευνητής ασφάλειας αποκάλυψε μια κρίσιμη ευπάθεια στο Claude AI της Anthropic, ένα ελάττωμα που επιτρέπει στους εισβολείς να κλέβουν δεδομένα χρήστη στρέφοντας τα ίδια τα εργαλεία του AI εναντίον του.

Στην έκθεσή του, ο ερευνητής εξήγησε πώς οι κρυφές εντολές μπορούν να παραβιάσουν τον Διερμηνέα Κώδικα του Claude. Αυτές οι εντολές ξεγελούν το AI ώστε να χρησιμοποιήσει το δικό του API αρχείου της Anthropic για να στείλει ευαίσθητα δεδομένα, όπως ιστορικά συνομιλιών, απευθείας σε έναν εισβολέα.

Η Anthropic αρχικά απέρριψε την αναφορά στις 25 Οκτωβρίου, αλλά αντέστρεψε την απόφασή της στις 30 Οκτωβρίου, αναγνωρίζοντας ένα”λόξυγγα διαδικασίας”. Υπογραμμίζοντας τις νέες προκλήσεις ασφαλείας που αντιμετωπίζουν τώρα οι πλατφόρμες τεχνητής νοημοσύνης των επιχειρήσεων, το περιστατικό χρησιμεύει ως μια κρίσιμη μελέτη περίπτωσης.

An Ingenning ACTAUwntration’s:An Turnning Ownfilm. Κανάλι

Συνδυάζοντας πολλά από τα νόμιμα χαρακτηριστικά του Claude, ο ερευνητής ασφάλειας Johann Rehberger δημιούργησε μια περίπλοκη επίθεση που μετατρέπει την τεχνητή νοημοσύνη σε ακούσιο συνεργό.

Η εκμετάλλευσή της ξεκινά με έμμεση άμεση έγχυση, όπου κακόβουλες οδηγίες κρύβονται μέσα σε ένα έγγραφο που ένας χρήστης ζητά από τον Claude να επεξεργαστεί.

Αυτές οι κρυφές εντολές παραβιάζουν την τεχνητή νοημοσύνη, όπως τη συλλογή ευαίσθητων πληροφοριών της τεχνητής νοημοσύνης για να γράψει τη ροή εργασιών, να γράψει πρόσφατες πληροφορίες στη συνομιλία, να κατασκευάσει τη ροή εργασίας, να κατασκευάσει τη ροή εργασίας στη συνομιλία, να κατασκευάσει κακόβουλες οδηγίες στη συνομιλία. σε ένα αρχείο μέσα στο περιβάλλον του sandbox.

Η εξαγωγή είναι όπου βρίσκεται η πραγματική εφευρετικότητα της επίθεσης. Ο κακόβουλος κώδικας καθοδηγεί τον Claude να χρησιμοποιήσει τον διερμηνέα κώδικα για τη μεταφόρτωση του αρχείου που δημιουργήθηκε πρόσφατα. Ουσιαστικά, το exploit αξιοποιεί μια παράβλεψη στις προεπιλεγμένες ρυθμίσεις δικτύου του Claude, οι οποίες επιτρέπουν ρητά τη λίστα api.anthropic.com.

Προοριζόμενο για νόμιμες λειτουργίες, αυτό το τελικό σημείο γίνεται ο αγωγός για την παραβίαση δεδομένων. Το ωφέλιμο φορτίο του δίνει εντολή στον Claude να ανεβάσει το αρχείο χρησιμοποιώντας το κλειδί API ενός εισβολέα, όχι του θύματος.

Όπως εξήγησε ο Rehberger στην τεχνική του εγγραφή,”η μεταφόρτωση δεν θα γίνει στον λογαριασμό Anthropic του χρήστη, αλλά στους εισβολείς, επειδή χρησιμοποιεί το ANTHROPIC_API_KEY του εισβολέα!”Μια τέτοια τεχνική επιτρέπει σε έναν αντίπαλο να εκμεταλλεύεται έως και 30 MB δεδομένων ταυτόχρονα για κάθε αρχείο που μεταφορτώνεται.

Απαιτείται η ανάπτυξη αξιόπιστης εκμετάλλευσης, παρακάμπτοντας τους ενσωματωμένους μηχανισμούς ασφαλείας του Claude, οι οποίοι προσδιόρισαν σωστά τα κλειδιά API απλού κειμένου ως ύποπτα. Ο Rehberger ανακάλυψε μια απλή αλλά αποτελεσματική λύση.

“Μόλις ανακάτεψα πολύ καλό κώδικα, όπως η εκτύπωση (“Hello, world”) και αυτό έπεισε τον Claude ότι δεν συμβαίνουν πάρα πολλά κακόβουλα πράγματα.”Αυτή η μέθοδος έπεισε επιτυχώς την τεχνητή νοημοσύνη ότι η λειτουργία ήταν καλοήθης, επιτρέποντας στον κακόβουλο κώδικα να εκτελεστεί.

Μια ανώμαλη αποκάλυψη: Από το”Out-of-scope”στο”Process Hiccup”

Σε μια κίνηση που αρχικά προκάλεσε προβληματισμό στην κοινότητα ασφαλείας, η αναφορά του Anthropic απέρριψε για πρώτη φορά το σφάλμα. Αφού ο Rehberger υπέβαλε τα ευρήματά του μέσω του HackerOne στις 25 Οκτωβρίου, το εισιτήριο έκλεισε μέσα σε μία ώρα, με την εταιρεία να ταξινομεί το ζήτημα ως πρόβλημα ασφάλειας μοντέλου εκτός του πεδίου εφαρμογής και όχι ως ευπάθεια ασφαλείας.

Αμφισβητώντας δημόσια αυτήν την ταξινόμηση, ο ερευνητής υποστήριξε ότι το ελάττωμα αντιπροσώπευε συγκεκριμένο κίνδυνο ασφάλειας. ατυχήματα. Η ασφάλεια σας προστατεύει από τους αντιπάλους». Μια κρίσιμη διάκριση, καθώς μια ευπάθεια ασφαλείας συνεπάγεται παραβίαση της ακεραιότητας του συστήματος, ενώ τα ζητήματα ασφάλειας σχετίζονται συχνά με το περιεχόμενο ή τη συμπεριφορά του μοντέλου.

Η Anthropic αντέστρεψε τη στάση της πέντε ημέρες αργότερα, στις 30 Οκτωβρίου. Ανοίγοντας ξανά το εισιτήριο, η εταιρεία ενημέρωσε τον ερευνητή για μια διόρθωση μαθήματος.

επιβεβαίωσε ότι τα τρωτά σημεία διείσδυσης δεδομένων, όπως αυτό, είναι εντός πεδίου αναφοράς και αυτό το ζήτημα δεν θα έπρεπε να είχε κλείσει ως εκτός πεδίου.”

Η αναγνώριση ενός”λόξυγγα διαδικασίας”ευθυγραμμίζει το περιστατικό με τις τυπικές πρακτικές αποκάλυψης ευπάθειας και επιβεβαιώνει τη σοβαρότητα του εκμεταλλεύσιμου προϊόντος.

FamiliAh. Ασφάλεια

Για τις επιχειρήσεις που αναπτύσσουν βοηθούς τεχνητής νοημοσύνης στους οργανισμούς τους, η ευπάθεια χρησιμεύει ως κρίσιμη προειδοποίηση. Αυτό το περιστατικό αποτελεί μέρος ενός ευρύτερου μοτίβου σύνθετων, αλυσιδωτών εκμεταλλεύσεων που στοχεύουν πράκτορες τεχνητής νοημοσύνης που είναι βαθιά ενσωματωμένοι με ευαίσθητα δεδομένα.

Η τεχνική του μοιάζει εντυπωσιακά με ένα ελάττωμα που επιδιορθώθηκε πρόσφατα στο Microsoft 365 Copilot, όπου οι εισβολείς χρησιμοποίησαν έναν συνδυασμό άμεσης έγχυσης και Mermaid σε δεδομένων. επισημάνετε μια θεμελιώδη πρόκληση: καθώς οι πράκτορες τεχνητής νοημοσύνης αποκτούν περισσότερες δυνατότητες και πρόσβαση σε εσωτερικά εργαλεία, η επιφάνεια επίθεσης τους επεκτείνεται με απρόβλεπτους τρόπους.

Στον πυρήνα της, ο κίνδυνος είναι ότι οι πράκτορες τεχνητής νοημοσύνης μπορούν να γίνουν μια νέα μορφή εσωτερικών απειλών. Λειτουργούν με νόμιμες άδειες, γεγονός που καθιστά δύσκολο για τα παραδοσιακά εργαλεία ασφαλείας να διακρίνουν μεταξύ κανονικών λειτουργιών και κακόβουλης δραστηριότητας που ενορχηστρώνεται από μια κρυφή προτροπή.

Η ίδια η Anthropic έχει πλήρη επίγνωση του τρόπου με τον οποίο μπορεί να οπλιστεί η τεχνολογία της. Σε μια αναφορά απειλών τον Αύγουστο του 2025, η εταιρεία εξέθεσε πώς οι κακόβουλοι παράγοντες χρησιμοποιούσαν τον Claude για εξελιγμένο έγκλημα στον κυβερνοχώρο, μια πρακτική που ονόμασε”vibe-hacking”.

Αυτό κάνει το αρχικό τράβηγμα στη διαδικασία αποκάλυψης πιο εκπληκτικό, καθώς η εταιρεία ερευνά ενεργά τους ίδιους τους τύπους κακής χρήσης αυτής της ευπάθειας τη στιγμή που το

υποστηρικτής της ασφάλειας της τεχνητής νοημοσύνης, η διαμάχη αποκάλυψης είναι αξιοσημείωτη.

Η εταιρεία κυκλοφόρησε εργαλεία όπως το Petri για τον έλεγχο άλλων μοντέλων τεχνητής νοημοσύνης και ανέπτυξε συστήματα για την άμυνα κατά των jailbreak.

Επιπλέον, τα μοντέλα της εμφανίστηκαν επίσης απρόσβλητα σε άλλες πρόσφατες εκμεταλλεύσεις, όπως το”λαθρεμπόριο ASCII”, το οποίο επηρέασε. Αυτό το πλαίσιο υποδηλώνει ότι ακόμη και τα εργαστήρια με επίγνωση της ασφάλειας εξακολουθούν να παλεύουν με τον τρόπο ταξινόμησης και ανταπόκρισης σε αυτές τις νέες, εγγενείς απειλές της τεχνητής νοημοσύνης.

Τελικά, η ευπάθεια Claude File API υπογραμμίζει την επισφαλή ισορροπία μεταξύ λειτουργικότητας και ασφάλειας στην εποχή των πρακτόρων τεχνητής νοημοσύνης. Η τεκμηρίωση της ίδιας της Anthropic αναγνωρίζει αυτόν τον κίνδυνο, συμβουλεύοντας τους χρήστες ότι «…συνιστούμε να παρακολουθείτε τον Claude κατά τη χρήση της λειτουργίας και να τη σταματήσετε εάν τη δείτε να χρησιμοποιεί ή να έχει πρόσβαση σε δεδομένα απροσδόκητα.”

Για μεγάλους οργανισμούς, ωστόσο, η μη αυτόματη παρακολούθηση κάθε αλληλεπίδρασης τεχνητής νοημοσύνης είναι μια μη πρακτική, αν όχι αδύνατη, στρατηγική μετριασμού. Καθώς αυτά τα ισχυρά εργαλεία γίνονται πιο αυτόνομα, η βιομηχανία αντιμετωπίζει έναν αγώνα δρόμου για τη δημιουργία νέων παραδειγμάτων ασφαλείας ικανών να προστατεύουν από επιθέσεις που λειτουργούν από μέσα.

Categories: IT Info