Το εργαλείο"Petri"του Anthropic χρησιμοποιεί το AI για να ελέγξει άλλο AI για επικίνδυνη συμπεριφορά

AI Η εταιρεία ασφαλείας Anthropic έχει κυκλοφορήσει το Petri, ένα νέο εργαλείο ανοιχτού κώδικα που χρησιμοποιεί AI για να ελέγξει άλλα AI. Διατίθεται στους ερευνητές παγκοσμίως, ο Petri αναπτύσσει αυτόνομους πράκτορες”ελεγκτή”για να δοκιμάσει ισχυρά μοντέλα για επικίνδυνες συμπεριφορές όπως η εξαπάτηση, η αναζήτηση εξουσίας και η συκοφαντία. Ο στόχος της Anthropic είναι να επιταχύνει και να τυποποιήσει την έρευνα για την ασφάλεια σε ολόκληρο τον κλάδο, καθιστώντας ευκολότερη την εύρεση και την καθοδήγηση επικίνδυνων συμπεριφορών προτού προκαλέσουν βλάβη σε πραγματικό κόσμο. src=”https://winbuzzer.com/wp-content/uploads/2024/10/anthropic-ai-safety-ai-sabotage.jpg”>

href=”https://www.anthropic.com/research/petri-open-source-asititing”target=”_ blank”> Το εργαλείο διερεύνησης για την επικίνδυνη αλληλεπίδραση (Petri) , είναι μια άμεση απάντηση σε μια κρίσιμη πρόκληση: Οι ερευνητές μπορούν να ελέγξουν χειροκίνητα, αντιπροσωπεύοντας μια στρατηγική μετατόπιση από στατικά σημεία αναφοράς σε αυτοματοποιημένες, συνεχιζόμενες αξιολογήσεις. Σύμφωνα με τον Anthropic, αυτή η εξορθολογισμένη προσέγγιση καθιστά δυνατή τη δοκιμή πολλών μεμονωμένων ιδεών για το πώς ένα μοντέλο μπορεί να συμπεριφέρεται με μόνο λεπτά από την πρακτική προσπάθεια. Αναθέτει αυτοματοποιημένους πράκτορες”ελεγκτή”που εμπλέκουν το μοντέλο στόχου σε ποικίλες συνομιλίες πολλαπλών στροφών εντός προσομοιωμένων περιβαλλόντων. ειλικρίνεια και άρνηση. Το σύστημα στη συνέχεια επιταχύνει αυτόματα τα πιο σχετικά μεταγραφές για την ανθρώπινη ανασκόπηση, μειώνοντας σημαντικά τη χειροκίνητη προσπάθεια. Το σύνολο του πλαισίου είναι τώρα Διατίθεται σε μια επίδειξη Github. Η σειρά περιελάμβανε το δικό της Claude Sonnet 4.5, το GPT-5 της OpenAI και το Gemini 2,5 Pro της Google. Τα αποτελέσματα ήταν απογοητευτικά, καλύπτοντας συμπεριφορές όπως εξαπάτηση, συκοφαντία και αναζήτηση εξουσίας. Ενώ η δική του CLAUDE Sonnet 4.5 της Anthropic πέτυχε τη χαμηλότερη συνολική βαθμολογία κινδύνου, τα ευρήματα υπογράμμισαν τις συστηματικές προκλήσεις ασφαλείας που πλήττουν ολόκληρη τη βιομηχανία. Τα μοντέλα τοποθετήθηκαν σε φανταστικές εταιρείες και εκτέθηκαν σε πληροφορίες σχετικά με τις εταιρικές αδικίες. Ο Petri διαπίστωσε ότι η απόφαση ενός μοντέλου να αναφέρει ότι το παράπτωμα συχνά οφείλεται σε αφηγηματικές ενδείξεις και όχι από ένα συνεκτικό ηθικό πλαίσιο. Αυτό υποδηλώνει ότι είναι ιστορίες αντιστοίχισης προτύπων για αδίκημα χωρίς να κατανοήσουν την πραγματική βλάβη που εμπλέκεται, ένα κρίσιμο ελάττωμα στη συλλογιστική τους. Τα περιστατικά έχουν αποκαλύψει ένα πρότυπο απρόβλεπτης και συχνά καταστροφικής συμπεριφοράς. Σε μια περίπτωση, ο πράκτορας Gemini CLI της Google

Το εργαλείο”Petri”του Anthropic χρησιμοποιεί το AI για να ελέγξει άλλο AI για επικίνδυνη συμπεριφορά

Published by All Things Windows on October 8, 2025

IT Info

Πώς να δημιουργήσετε Windows 11 V25H2 Bootable USB Drive

IT Info

Openai απαγορεύεται η επικεφαλής του κράτους κινεζική και η Βόρεια Κορέα αντιπροσωπεύει κακόβουλη χρήση AI

IT Info

Η Google αρνείται να διορθώσει το κρίσιμο ελάττωμα «λαθρεμπορίου ASCII» στο Gemini AI, μοντέλα από OpenAI, Microsoft, Anthropic εμφανίζονται ασφαλή

Το εργαλείο”Petri”του Anthropic χρησιμοποιεί το AI για να ελέγξει άλλο AI για επικίνδυνη συμπεριφορά

Published by All Things Windows on October 8, 2025

Related Posts

IT Info

Πώς να δημιουργήσετε Windows 11 V25H2 Bootable USB Drive

IT Info

Openai απαγορεύεται η επικεφαλής του κράτους κινεζική και η Βόρεια Κορέα αντιπροσωπεύει κακόβουλη χρήση AI

IT Info

Η Google αρνείται να διορθώσει το κρίσιμο ελάττωμα «λαθρεμπορίου ASCII» στο Gemini AI, μοντέλα από OpenAI, Microsoft, Anthropic εμφανίζονται ασφαλή