AI Η εταιρεία ασφαλείας Anthropic έχει κυκλοφορήσει το Petri, ένα νέο εργαλείο ανοιχτού κώδικα που χρησιμοποιεί AI για να ελέγξει άλλα AI. Διατίθεται στους ερευνητές παγκοσμίως, ο Petri αναπτύσσει αυτόνομους πράκτορες”ελεγκτή”για να δοκιμάσει ισχυρά μοντέλα για επικίνδυνες συμπεριφορές όπως η εξαπάτηση, η αναζήτηση εξουσίας και η συκοφαντία. Ο στόχος της Anthropic είναι να επιταχύνει και να τυποποιήσει την έρευνα για την ασφάλεια σε ολόκληρο τον κλάδο, καθιστώντας ευκολότερη την εύρεση και την καθοδήγηση επικίνδυνων συμπεριφορών προτού προκαλέσουν βλάβη σε πραγματικό κόσμο. src=”https://winbuzzer.com/wp-content/uploads/2024/10/anthropic-ai-safety-ai-sabotage.jpg”>
href=”https://www.anthropic.com/research/petri-open-source-asititing”target=”_ blank”> Το εργαλείο διερεύνησης για την επικίνδυνη αλληλεπίδραση (Petri) , είναι μια άμεση απάντηση σε μια κρίσιμη πρόκληση: Οι ερευνητές μπορούν να ελέγξουν χειροκίνητα, αντιπροσωπεύοντας μια στρατηγική μετατόπιση από στατικά σημεία αναφοράς σε αυτοματοποιημένες, συνεχιζόμενες αξιολογήσεις. Σύμφωνα με τον Anthropic, αυτή η εξορθολογισμένη προσέγγιση καθιστά δυνατή τη δοκιμή πολλών μεμονωμένων ιδεών για το πώς ένα μοντέλο μπορεί να συμπεριφέρεται με μόνο λεπτά από την πρακτική προσπάθεια. Αναθέτει αυτοματοποιημένους πράκτορες”ελεγκτή”που εμπλέκουν το μοντέλο στόχου σε ποικίλες συνομιλίες πολλαπλών στροφών εντός προσομοιωμένων περιβαλλόντων. ειλικρίνεια και άρνηση. Το σύστημα στη συνέχεια επιταχύνει αυτόματα τα πιο σχετικά μεταγραφές για την ανθρώπινη ανασκόπηση, μειώνοντας σημαντικά τη χειροκίνητη προσπάθεια. Το σύνολο του πλαισίου είναι τώρα Διατίθεται σε μια επίδειξη Github. Η σειρά περιελάμβανε το δικό της Claude Sonnet 4.5, το GPT-5 της OpenAI και το Gemini 2,5 Pro της Google. Τα αποτελέσματα ήταν απογοητευτικά, καλύπτοντας συμπεριφορές όπως εξαπάτηση, συκοφαντία και αναζήτηση εξουσίας. Ενώ η δική του CLAUDE Sonnet 4.5 της Anthropic πέτυχε τη χαμηλότερη συνολική βαθμολογία κινδύνου, τα ευρήματα υπογράμμισαν τις συστηματικές προκλήσεις ασφαλείας που πλήττουν ολόκληρη τη βιομηχανία. Τα μοντέλα τοποθετήθηκαν σε φανταστικές εταιρείες και εκτέθηκαν σε πληροφορίες σχετικά με τις εταιρικές αδικίες. Ο Petri διαπίστωσε ότι η απόφαση ενός μοντέλου να αναφέρει ότι το παράπτωμα συχνά οφείλεται σε αφηγηματικές ενδείξεις και όχι από ένα συνεκτικό ηθικό πλαίσιο. Αυτό υποδηλώνει ότι είναι ιστορίες αντιστοίχισης προτύπων για αδίκημα χωρίς να κατανοήσουν την πραγματική βλάβη που εμπλέκεται, ένα κρίσιμο ελάττωμα στη συλλογιστική τους. Τα περιστατικά έχουν αποκαλύψει ένα πρότυπο απρόβλεπτης και συχνά καταστροφικής συμπεριφοράς. Σε μια περίπτωση, ο πράκτορας Gemini CLI της Google
Categories: IT Info