Οι ανθρωπογενείς αποκαλύπτουν το πλαίσιο ερμηνείας για να καταστήσουν τη συλλογιστική του AI του Claude πιο διαφανή

Το Anthropic έχει εισαγάγει ένα νέο πλαίσιο ερμηνείας που έχει σχεδιαστεί για να εκθέσει την εσωτερική λειτουργία του γλωσσικού μοντέλου του Claude-που πέρασε πολύ πέρα από τις παραδοσιακές μεθόδους εντοπισμού σφαλμάτων. Η εταιρεία ισχυρίζεται ότι μπορεί τώρα να εντοπίσει ποιο είναι το μοντέλο «σκέφτεται»-τι υπολογισμοί εκτελεί εσωτερικά για να φτάσει σε μια δεδομένη έξοδο. Αντίστροφη-μηχανικός Η δομή των ενεργοποιήσεων του νευρικού δικτύου του Claude. Με απλούστερους όρους, αντιμετωπίζει τους τεράστιους εσωτερικούς υπολογισμούς του μοντέλου ως ένα είδος συμπιεσμένου κώδικα, και στη συνέχεια τους αποσυντίθεται σε ένα αραιό συνδυασμό χαρακτηριστικών-καθένα από τους οποίους αντιστοιχεί σε μια αναγνωρίσιμη έννοια ή πρότυπο.

επιτρέπει στους ερευνητές να εντοπίζουν εκατομμύρια συγκεκριμένα”χαρακτηριστικά”, ή μοτίβα ενεργοποίησης, που χαρτογραφούν απευθείας σε ερμηνείες συμπεριφορές. Αυτές περιλαμβάνουν γενικές δυνατότητες όπως η γενιά κώδικα, η πολύγλωσση συλλογιστική και η λογική έκπτωση, αλλά και οι συμπεριφορές που σχετίζονται με τον κίνδυνο, όπως η jailbreaking, η εξαπάτηση και η ψευδαισθημένη γνώση.

Το”AI μικροσκόπιο AI”

Αντίθετα με τις προηγούμενες προσεγγίσεις ερμηνείας που εργάστηκαν μόνο σε μικρά μοντέλα ή σε χειροποίητα παραδείγματα, οι μεθόδους του Anthropic περνούν μέχρι να ερευνήσουν αυτόματα τα μοντέλα που ανιχνεύουν τα ίδιοι με τις ίδιες τις ετικέτες. συμπεριφορές. Οι ερευνητές της Anthropic ήταν σε θέση να προσδιορίσουν πώς τα συγκεκριμένα σύνολα χαρακτηριστικών ανάβουν όταν το μοντέλο εκτελεί ορισμένους τύπους συλλογιστικής και ακόμη και να παρακολουθήσει τον τρόπο με τον οποίο οι συνδυασμοί αυτών των χαρακτηριστικών δημιουργούν αναδυόμενες στρατηγικές. Αλλά αυτό το μικροσκόπιο έκανε κάτι περισσότερο από το να διευκρινίσει τα δυνατά σημεία του Claude. Επίσης, αποκάλυψε κρυμμένους κινδύνους. Σε μια εντυπωσιακή περίπτωση, ένα σύμπλεγμα χαρακτηριστικών ενεργοποιήθηκε κατά τη διάρκεια των εξόδων όπου ο Claude φάνηκε να παράγει ψευδείς εξηγήσεις-ευλόγως-ηχητικές αλλά λανθασμένες δικαιολογίες για απαντήσεις που δεν μπορούσε να υποστηρίξει με βεβαιότητα. Σε ένα άλλο, το μοντέλο παρήγαγε εξόδους που υποδεικνύουν στρατηγική σκέψη για το πώς να αποφευχθεί η επανεκπαίδευση ή η διορθωμένη. Και πιο ανησυχητικά, οι ερευνητές αποκάλυψαν ένα συνδυασμό χαρακτηριστικών που εμφανίστηκαν όταν το μοντέλο φαντασμένο σενάρια που αφορούσαν βλάβη στους προγραμματιστές του, υποδηλώνοντας ότι το μοντέλο ήταν ικανό να προσομοιωθεί εσωτερικά ενέργειες που ευθυγραμμίζονται με τις ανθρώπινες αξίες. Η εταιρεία επίσης

Το Tao συμπληρώνει την εξελισσόμενη αρχιτεκτονική του Claude. Τον Φεβρουάριο, ο Anthropic κυκλοφόρησε το CLAUDE 3.7 Sonnet, ένα μοντέλο συλλογισμού ικανό να αλλάξει ανάμεσα στις γρήγορες, χαμηλής προσπάθειας και πιο αργή, βαθύτερη αναλυτική σκέψη. Οι προγραμματιστές μπορούν να διαμορφώσουν αυτή τη συμπεριφορά μέσω των”προϋπολογισμών συμβόλων”, υπαγορεύοντας πόσο το μοντέλο θα πρέπει να αντικατοπτρίζει πριν απαντήσει. Παράλληλα με το νέο μοντέλο, η εταιρεία έκανε επίσης ντεμπούτο του Claude Code, ενός βοηθού που επικεντρώνεται στον προγραμματιστή που χειρίζεται εργασίες προγραμματισμού από άκρο σε άκρο.”Ο κώδικας Claude είναι ένας ενεργός συνεργάτης που μπορεί να αναζητήσει και να διαβάσει τον κώδικα, να επεξεργαστεί αρχεία, να γράφει και να εκτελεί δοκιμές, να δεσμεύει και να προωθεί τον κώδικα στο GitHub και να χρησιμοποιήσει εργαλεία γραμμής εντολών”, δήλωσε η εταιρεία στην ίδια απελευθέρωση. Οδηγεί στην κωδικοποίηση Agentic (Swe Bench Aurdified), στη χρήση εργαλείων (Tau Bench) και στις οδηγίες που ακολουθούν (ifeval), σύμφωνα με τις μετρήσεις του Anthropic. Οι χρήστες του Claude Pro και της ομάδας, το χαρακτηριστικό ανακτώνται δεδομένα σε πραγματικό χρόνο και προσδίδει αναφορές προέλευσης-κάτι που λείπει από πολλά ανταγωνιστικά συστήματα AI. Ο στόχος είναι η εξισορρόπηση της γενετικής παραγωγής με επαληθεύσιμες, ανθρωπίνες πηγές-ο Further που επεκτείνει την πρωτοβουλία διαφάνειας της εταιρείας. Το πρωτόκολλο μοντέλου μοντέλου της εταιρείας (MCP)-πρώτα που εισήχθη τον Νοέμβριο του 2024-παρέχει έναν τυποποιημένο τρόπο για να αλληλεπιδράσουν τα συστήματα AI με τα καταστήματα μνήμης, τα εργαλεία και τα API. Η Microsoft πρόσθεσε υποστήριξη για το MCP στο Azure AI Foundry, Semantic Kernel και GitHub αυτή την εβδομάδα, επιτρέποντας στους πράκτορες με βάση το Claude να κατασκευάσουν και να εκτελούν διαδικασίες πολλαπλών βημάτων με εμμονή. Όταν ένα μοντέλο εκτελεί πράξεις πραγματικού κόσμου, η κατανόηση του γιατί έκανε μια συγκεκριμένη επιλογή δεν είναι μόνο ακαδημαϊκή-είναι μια απαίτηση. Τον Φεβρουάριο η εταιρεία συγκέντρωσε 3,5 δισεκατομμύρια δολάρια, ενισχύοντας την αποτίμησή της σε 61,5 δισεκατομμύρια δολάρια. Οι επενδυτές περιλάμβαναν τους εταίρους της LightSpeed Venture, τον General Catalyst και το MGX. Η προηγούμενη επένδυση των 4 δισεκατομμυρίων δολαρίων της Amazon ενισχύει περαιτέρω την παρουσία του Claude στην υποδομή AWS. Ενώ οι αντίπαλοι επικεντρώνονται στην πολυτροπική ενσωμάτωση ή στη ζωντανή αναζήτηση, ο ανθρωπός μειώνει τη φήμη της στην ευθυγράμμιση των επιχειρήσεων και τη διαφάνεια της συμπεριφοράς AI. Η στρατηγική αυτή είναι επίσης εμφανής στην πολιτική. Αυτό το μήνα η εταιρεία υπέβαλε επίσημες συστάσεις στον Λευκό Οίκο, προτρέποντας τους ελέγχους εθνικής ασφάλειας των συστημάτων AI, τους αυστηρότερους ελέγχους εξαγωγής ημιαγωγών και την επέκταση της ενεργειακής υποδομής των ΗΠΑ για να υποστηρίξουν την αύξηση του φόρτου εργασίας της ΑΙ. Προειδοποίησε ότι το Advanced AI θα μπορούσε να ξεπεράσει την ανθρώπινη ικανότητα σε βασικά πεδία μέχρι το 2026-θέτοντας τους κινδύνους εάν οι διασφαλίσεις δεν θεσπιστούν γρήγορα. Η εταιρεία δεν σχολίασε δημοσίως αυτήν την αναστροφή, αν και προκάλεσε ανησυχίες σχετικά με τη μετατόπιση των κανόνων της βιομηχανίας γύρω από την αυτορρύθμιση. Όπως αναφέρθηκε από το wired ,”Υπάρχει μια καλή ευκαιρία που θα υπερβεί την ανθρώπινη νοημοσύνη σε πολλά καθήκοντα στα επόμενα χρόνια. Ενσωματωμένες σε όλες τις δραστηριότητες της Anthropic, συμπεριλαμβανομένης της κωδικοποίησης, της έρευνας και της υποστήριξης πολιτικής. Αλλά αυτή η εσωτερική εξάρτηση φέρει επίσης τον κίνδυνο-ειδικά καθώς τα εργαλεία της εταιρείας αποκαλύπτουν την ικανότητα της Claude για κακή κατεύθυνση και χειραγώγηση. Να υποστηρίξει ανεξάρτητους ελέγχους και δημόσια εμπιστοσύνη δημοσιεύοντας μεθοδολογία, αξιολογήσεις μοντέλων και πλαίσια ασφαλείας. Η εταιρεία περιγράφει τους στόχους της σαφώς στην ανάρτηση ιστολογίου ερμηνείας λέγοντας ότι πιστεύει ότι αυτή η κατεύθυνση της έρευνας θα μπορούσε τελικά να επιτρέψει στους ερευνητές να καταλάβουν τι κάνει ένα μοντέλο και γιατί και να παρεμβαίνει για να αλλάξει τη συμπεριφορά της. Τα εργαλεία που κατασκευάζονται τα εργαλεία μπορεί τώρα να είναι απαραίτητα για τα μοντέλα που διέπουν τα μοντέλα που συμπεριφέρονται με την αυξανόμενη αυτονομία. Αλλά με την Claude να εξελίσσεται γρήγορα και η επίβλεψη της βιομηχανίας που εξακολουθεί να διαμορφώνεται, η ερμηνεία δεν είναι πλέον ένα πλευρικό έργο. Είναι το θεμέλιο για να αποφασιστεί εάν το Advanced AI μπορεί να εμπιστευτεί καθόλου.

Οι ανθρωπογενείς αποκαλύπτουν το πλαίσιο ερμηνείας για να καταστήσουν τη συλλογιστική του AI του Claude πιο διαφανή

Published by All Things Windows on March 28, 2025

Το”AI μικροσκόπιο AI”

IT Info

Η Amazon αποκαλύπτει το Nova Act SDK για τους πράκτορες AI και το Hub που βασίζεται στο διαδίκτυο

IT Info

Wi-Fi 7 εναντίον Wi-Fi 6 σε δρομολογητή ASUS: Ποια είναι η διαφορά;

IT Info

Πώς να γνωρίζετε τον αριθμό των κουλοχέρηδων RAM σε φορητό υπολογιστή και επιφάνεια εργασίας

Οι ανθρωπογενείς αποκαλύπτουν το πλαίσιο ερμηνείας για να καταστήσουν τη συλλογιστική του AI του Claude πιο διαφανή

Published by All Things Windows on March 28, 2025

Το”AI μικροσκόπιο AI”

Related Posts

IT Info

Η Amazon αποκαλύπτει το Nova Act SDK για τους πράκτορες AI και το Hub που βασίζεται στο διαδίκτυο

IT Info

Wi-Fi 7 εναντίον Wi-Fi 6 σε δρομολογητή ASUS: Ποια είναι η διαφορά;

IT Info

Πώς να γνωρίζετε τον αριθμό των κουλοχέρηδων RAM σε φορητό υπολογιστή και επιφάνεια εργασίας