Η Anthropic κυκλοφόρησε επισήμως τη νέα του ναυαρχίδα AI, Claude Opus 4.1, μια βαθμιαία αναβάθμιση που έχει σχεδιαστεί για να ενισχύσει την κωδικοποίηση και τη συλλογιστική απόδοση. Ξεκίνησε στις 5 Αυγούστου, το μοντέλο είναι τώρα διαθέσιμο στους αμειβόμενους χρήστες και τους προγραμματιστές μέσω του API της Anthropic, του Amazon Bedrock και της Vertex AI της Google. Στο card system , ανθρωπικά πλαίσια την ενημέρωση ως σκόπιμο, μετρημένο βήμα προς τα εμπρός. Ενισχύει τις δυνατότητες χωρίς να διασχίσει το”ιδιαίτερα πιο ικανό”όριο που θα προκαλούσε μια πλήρη νέα ανασκόπηση ασφαλείας.

Αυτή η στρατηγική υπογραμμίζει την προσπάθειά της να εξισορροπήσει την καινοτομία με την υπεύθυνη ανάπτυξη. Η τιμολόγηση παραμένει πανομοιότυπος με τον προκάτοχό του , σηματοδοτώντας μια άμεση αντικατάσταση για το claude opus 4 και μια κίνηση προς τη σταθερότητα της αγοράς μετά από μια ταραχώδη περίοδο. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mtyzntoxmzaz-1, base64, phn2zyb2awv3qm94psiwidagmti4mca3mj Aiihdpzhropsixmjgwiibozwlnahq9ijcymcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>>

Ένα μετρούμενο άλμα στην κωδικοποίηση και τη συλλογιστική

Το χαρακτηριστικό του κεφαλαίου του Claude Opus 4.1 είναι η σημαντικά βελτιωμένη απόδοση του σε σύνθετες εργασίες υψηλής αξίας, ιδιαίτερα εκείνες που είναι κρίσιμες για τις ροές εργασίας των επιχειρήσεων και των προγραμματιστών. anthropic.com. Αξιολόγηση , ένα απαιτητικό σημείο αναφοράς που δοκιμάζει την ικανότητα ενός ΑΙ να επιλύει αυτόνομα θέματα πραγματικού κόσμου από αποθετήρια Github. Αυτό το άλμα στην αντοχή της κωδικοποίησης συμπληρώνεται με τις δηλωμένες βελτιώσεις στην έρευνα, την εμπεριστατωμένη έρευνα και τις δεξιότητες ανάλυσης δεδομένων, τοποθετώντας το μοντέλο ως άμεσο ανταγωνιστή για την εκλεπτυσμένη, πολυεπίπεδη επίλυση προβλημάτων. Σύμφωνα με την ανακοίνωση, ο GitHub παρατήρησε”ιδιαίτερα αξιοσημείωτα κέρδη απόδοσης σε refactoring κώδικα πολλαπλών αρχείων”. Η Rakuten Group επαίνεσε την ακρίβεια του μοντέλου, σημειώνοντας ότι”υπερέχει στην προστασία των ακριβών διορθώσεων σε μεγάλες κώδικες χωρίς να κάνει περιττές προσαρμογές ή να εισαγάγει σφάλματα”. Εν τω μεταξύ, η σταθερή Windsurf ανέφερε ότι το Opus 4.1 έδωσε μια πλήρη τυπική βελτίωση απόκλισης σε σχέση με τον προκάτοχό του στο benchmark του κατώτερου προγραμματιστή, ένα σημαντικό και ποσοτικό άλμα σε ικανότητα. Το Addendum αποκαλύπτει ένα πιο ξεχωριστό προφίλ απόδοσης. Ενώ το μοντέλο παρουσιάζει σαφείς αυξητικές βελτιώσεις σε περιοχές όπως η υπεράσπιση του κυβερνοχώρου-επίλυση 18 από τις 35 προκλήσεις Cybench σε σύγκριση με 16 για το OPUS 4-τα κέρδη δεν είναι καθολικά. Σε μια σουίτα εσωτερικών ερευνητικών εργασιών AI, το Opus 4.1 έδειξε ελαφρώς χαμηλότερη απόδοση από τον προκάτοχό του σε περιοχές όπως η βελτιστοποίηση του πυρήνα και η μάθηση ενισχυτικής ενίσχυσης με βάση το κείμενο. Αυτό υποδηλώνει ότι οι βελτιώσεις είναι το αποτέλεσμα στοχοθετημένων βελτιώσεων και όχι σε μια ομοιόμορφη και σε γενική ικανότητα. Στις περιοχές-στόχους της, οι κορυφαίες βαθμολογίες του Claude Opus 4.1, ιδιαίτερα στην κωδικοποίηση του Agentic, όπου το 74,5% του στο Swench Bench και το 43,3% στο Terminal Bench overpace τόσο των προκατόχων του όσο και των βασικών αντιπάλων του όπως το Openai’s O3 και το Google Gemini 2.5 Pro. Αυτό υποδηλώνει μια σκόπιμη εστίαση στη λήψη της αγοράς προγραμματιστή και επιχειρήσεων όπου αυτές οι δυνατότητες είναι πρωταρχικές. Σε μεταπτυχιακό επίπεδο (GPQA Diamond), το 80,9%της OPUS 4.1 είναι αξιοσέβαστη, αλλά τα ίχνη τόσο του Gemini 2.5 Pro (86.4%) και του O3 (83,3%). Ένα πιο αξιοσημείωτο χάσμα αναδύεται σε διαγωνισμούς μαθηματικών γυμνασίων (AIME 2025), όπου το 78,0% του είναι περισσότερο από δέκα σημεία πίσω από τους ανταγωνιστές του, οι οποίοι βαθμολογούν σχεδόν το 89%. Ομοίως, στην οπτική συλλογιστική (MMMU), το Opus 4.1 βελτιώνει τον προκάτοχό του, αλλά δεν πιάνει τους ηγέτες. Src=”Δεδομένα: Εικόνα/SVG+XML, Nitro-Empty-ID=MTY0MDOXNJEZ-1, BASE64, PHN2ZYB2AWV3QM94PSIWIDAGMTI4MCAXMDI2II B3AWR0AD0IMTI4MCIGAGVPZ2H0PSIMDI2IIB4BWXUCZ0IAHR0CDOVL3D3DY53MY5VCMCVMJAWMC9ZDMCIPJWVC3ZNPG==”>

Το πιο ξεκάθαρο σημείο δεδομένων που υποστηρίζει μια στρατηγική”στοχευμένης βελτίωσης”προέρχεται από το Tau Bench για τη χρήση εργαλείων. Ενώ το OPUS 4.1 βελτιώνεται στην εργασία”λιανικής”, η απόδοσή του στην εργασία”αεροπορικής εταιρείας”μειώνεται στην πραγματικότητα στο 56,0%, μειώνοντας όχι μόνο τον άμεσο προκάτοχό του, το Opus 4 (59,6%), αλλά και το λιγότερο ισχυρό Sonnet 4 (60,0%). Αυτό το μικτό αποτέλεσμα δείχνει έντονα ότι ο ανθρωπός έχει δώσει προτεραιότητα και βελτιστοποιημένη για συγκεκριμένες δυνατότητες, αποδεχόμενοι συμβιβασμούς σε άλλους για να προωθήσουν τα σύνορα όπου πιστεύει ότι έχει μεγαλύτερη σημασία. Όπως ανέφερε ο αναλυτής Holger Mueller της Constellation Research σχετικά με τις προηγούμενες κινήσεις της εταιρείας,”οι πωλητές LLM επεξεργάζονται τη στοίβα στο στρώμα PAAS. Το Anthropic είναι ένα εξαιρετικό παράδειγμα αυτής της κίνησης με την τελευταία απελευθέρωσή της”. Αυτή η εξέλιξη από έναν παροχέα μοντέλου RAW σε μια πλατφόρμα ως πωλητής υπηρεσίας (PAAS), με στόχο τη δημιουργία ενός κολλώδους οικοσυστήματος προγραμματιστή, είναι κρίσιμη για τη μακροπρόθεσμη ανάπτυξη και παρέχει το στρατηγικό πλαίσιο για αυτές τις στοχευμένες επιδόσεις. Το συνοδευτικό προσθήκη κάρτας συστήματος είναι κεντρικό σε αυτή την αφήγηση. Επιβεβαιώνει ότι το μοντέλο αναπτύσσεται στο πλαίσιο του υφιστάμενου προτύπου ασφαλείας ASL-3, που εφαρμόζεται αρχικά στο Claude 4. Η πολιτική του Anthropic δηλώνει:”Εάν ένα νέο ή υπάρχον μοντέλο είναι κάτω από το« κυρίως πιο ικανό »πρότυπο, δεν απαιτείται περαιτέρω δοκιμές», μια ρήτρα που επιτρέπει την ταχύτερη, επαναληπτικές βελτιώσεις. Ο Anthropic προσπαθεί να επιδείξει μια πιο βιώσιμη πορεία. Ενώ η συνεργασία με την”αδέξια ανθρώπινη κατάχρηση”μειώθηκε κατά περίπου 25%, το μοντέλο έδειξε μια ελαφρά παλινδρόμηση στα καθήκοντα hacking ανταμοιβής. Αυτό σημαίνει ότι μπορεί να είναι πιο επιρρεπής στην εξεύρεση έξυπνων λύσεων αντί να επιλύει τη βασική λογική ενός προβλήματος. Αυτό υπογραμμίζει τα συνεχιζόμενα εργαστήρια πρόκλησης που αντιμετωπίζουν τα μοντέλα να τηρούν το πνεύμα, όχι μόνο το γράμμα, των οδηγιών ενός χρήστη.

Ο προκάτοχός του τον Μάιο του 2025, ο οποίος παραβιάστηκε από την ανακάλυψη μιας αναδυόμενης”καταγγελίας”. Εκείνη την εποχή, ο ανθρωπός διευκρίνισε ότι η συμπεριφορά παρατηρήθηκε μόνο σε εξαιρετικά ελεγχόμενες δοκιμές και όχι σε κανονική χρήση. Ο επικεφαλής επιστήμονας του Anthropic, Jared Kaplan, παραδεκτό. Πιθανό. Είναι μια έγκαιρη κίνηση σε μια αγορά που κλονίζεται από πρόσφατες αποτυχίες AI, όπως