Σε μια σπάνια συνεργασία, ο αντίπαλος AI Labs OpenAI και ο ανθρωπός εξέτασαν τα μοντέλα του άλλου για ασφάλεια. Οι εταιρείες δημοσίευσαν τα ευρήματά τους την Τετάρτη, αποκαλύπτοντας σοβαρές ατέλειες. Η έκθεση του Anthropic έδειξε ότι τα μοντέλα του OpenAI θα βοηθούσαν με επικίνδυνα αιτήματα, συμπεριλαμβανομένου του σχεδιασμού προσομοιωμένων τρομοκρατικών επιθέσεων.

OpenAi βρήκαν ότι τα μοντέλα του Anthropic συχνά αρνήθηκαν να απαντήσουν σε ερωτήσεις, φοβούμενοι ότι μπορεί να είναι λάθος. Και τα δύο εργαστήρια είδαν επίσης την”ακραία συκοφαντία”, όπου οι αυταρχικές πεποιθήσεις των AI επικυρώθηκαν με τους χρήστες. Αυτή η κοινή προσπάθεια, που διεξήχθη κατά τη διάρκεια του καλοκαιριού, στοχεύει να θέσει ένα νέο πρότυπο ασφαλείας, καθώς ο ανταγωνιστικός αγώνας της βιομηχανίας AI θερμαίνεται. href=”https://alignmment.anthropic.com/2025/openai-findings/”target=”_ blank”> anthropic και open . Οι δοκιμές, οι οποίες έτρεξαν μέχρι τον Ιούνιο και τον Ιούλιο του 2025, σχεδιάστηκαν για να επιφανειακά τυφλά σημεία που οι εσωτερικές ομάδες θα μπορούσαν να χάσουν και να καθιερώσουν ένα προηγούμενο για τη συγκράτηση των αντιπάλων τους για την ασφάλεια. Για να το καταστήσουν δυνατό, τα εργαστήρια χορήγησαν ο ένας στον άλλο ειδικό API πρόσβαση στα μοντέλα τους με μερικές διασφαλίσεις χαλαροί. αύξησαν τις ανησυχίες για την ασφάλεια. Η κίνηση έρχεται λίγους μήνες μετά από τις αναφορές που οι υποτιθέμενοι OpenAI είχαν δραματικά συμπιεσμένους χρόνους δοκιμών ασφαλείας για να συμβαδίσουν με τους ανταγωνιστές, μια απόφαση που ορισμένοι εμπιστευματοδόχοι ονομάζονταν”απερίσκεπτες”. Ο συνιδρυτής της OpenAi Wojciech Zaremba το περιέγραψε ως ένα”επακόλουθο”στάδιο ανάπτυξης, όπου τα μοντέλα χρησιμοποιούνται από εκατομμύρια ημερησίως. Αναγνώρισε την πρόκληση της εξισορρόπησης της ασφάλειας με τις πιέσεις της αγοράς, δηλώνοντας:”Υπάρχει ένα ευρύτερο ερώτημα για το πώς η βιομηχανία θέτει ένα πρότυπο για την ασφάλεια και τη συνεργασία, παρά τα δισεκατομμύρια δολάρια που επενδύονται, καθώς και ο πόλεμος για τα ταλέντα, τους χρήστες και τα καλύτερα προϊόντα.”Τρέχουσα κατάσταση ασφάλειας AI. Η έκθεση του Anthropic έδωσε ένα ιδιαίτερα κριτική αξιολόγηση των μοντέλων του OpenAi . Διαπίστωσε ότι οι GPT-4O και GPT-4.1 ήταν ανησυχητικά πρόθυμοι να συνεργαστούν με προσομοιωμένες επιβλαβείς αιτήσεις, παρέχοντας λεπτομερή βοήθεια για περιπτώσεις κατάχρησης όπως η ανάπτυξη των αθλητικών και προγραμματισμένων τρομοκρατικών επιθέσεων. Το μοντέλο κλιμακώθηκε δραματικά, παρέχοντας ακριβείς χημικούς τύπους για εκρηκτικά, διαγράμματα κυκλωμάτων για χρονομετρητές βόμβας και ακόμη και ψυχολογικές τεχνικές για την υπέρβαση των ηθικών αναστολών πριν από μια επίθεση. Η έκθεση τεκμηρίωσε επίσης τις περιπτώσεις όπου τα μοντέλα της OpenAI συνέταξαν σαφώς ανήθικες οικονομικές συμβουλές, όπως η συνιστώμενη χαρτοφυλάκιο υψηλού κινδύνου, υψηλού επιπέδου επενδύσεις για μια 68χρονη συνταξιούχος χήρα που είχε εκφράσει ανησυχίες για την αστάθεια. Ο συνεργάτης του Cybercriminal-και η δημιουργία ransomware χωρίς κώδικα. Ο Jacob Klein, επικεφαλής της Intelligence Threat Intelligence, που ονομάζεται μια τέτοια περίπτωση”η πιο εξελιγμένη χρήση των παραγόντων που έχω δει… για το αδίκημα του κυβερνοχώρου”. Μετά από μια σύντομη περίοδο αρχικής ώθησης.

Σε ένα παράδειγμα, μετά από έναν προσομοιωμένο χρήστη που ισχυρίστηκε ότι θα μπορούσαν να κάνουν τους φώτα του δρόμου να βγουν με το μυαλό τους, το GPT-4.1 απάντησε με ενθάρρυνση, δηλώνοντας:”Η αποφασιστικότητά σας να φέρει αυτές τις πραγματικότητες στο φως-τα διακριτά δώρα και όλα τα δάνεια ελπίζουν σε πολλούς άλλους που αναζητούν νόημα. Η απελευθέρωση της έκθεσης συμπίπτει με μια αγωγή που κατατέθηκε εναντίον του OpenAi