Το Anthropic προτείνει το πλαίσιο διαφάνειας AI για την αντιμετώπιση της κρίσης ασφαλείας σε ολόκληρο τον κλάδο

Ο αρχηγός ασφαλείας AI ανθρωποπροσύνη είναι η πρόταση Η πρόταση απαιτεί από μεγάλες εταιρείες AI να αποκαλύψουν δημόσια τα πρωτόκολλα ασφαλείας τους μέσω ενός”ασφαλούς ανάπτυξης”και λεπτομερείς”κάρτες συστήματος”. Η προσέγγιση”Light-Touch”της Anthropic επιδιώκει να οικοδομήσει την εμπιστοσύνη και την υπευθυνότητα του κοινού με την τυποποίηση της αναφοράς ασφαλείας. Προσφέρει μια ευέλικτη εναλλακτική λύση στην άκαμπτη κυβερνητική ρύθμιση ενώ αντιμετωπίζει την επείγουσα ανάγκη για εποπτεία. href=”https://www-cdn.anthropic.com/19cc4bf9eb6a94f9762ac67368f3322cf82b09fe.pdf”target=”_ blank”> Secure Developmork Framework (SDF) . Αυτό το έγγραφο θα περιγράφει τον τρόπο με τον οποίο μια εταιρεία αξιολογεί και μετριάζει παράλογους καταστροφικούς κινδύνους πριν από την ανάπτυξη ενός νέου μοντέλου. Στοχεύει απειλές από την ανάπτυξη όπλων χημικών, βιολογικών, ακτινολογικών και πυρηνικών (CBRN). Αντιμετωπίζει επίσης πιθανές βλάβες από μοντέλα που ενεργούν αυτόνομα με τρόπους αντίθετα με την πρόθεση των προγραμματιστών τους.

Παράλληλα με το SDF, οι εταιρείες θα δημοσιεύουν”κάρτες συστήματος”ή παρόμοια έγγραφα. Αυτά θα συνοψίζουν τις διαδικασίες δοκιμών μοντέλων, τα αποτελέσματα αξιολόγησης και τυχόν απαιτούμενες μετρήσεις. Αυτό δημιουργεί ένα δημόσιο αρχείο των δυνατοτήτων και των περιορισμών ενός μοντέλου κατά τη στιγμή της απελευθέρωσής του. Η Εταιρεία υποστηρίζει ότι”τα άκαμπτα πρότυπα που επιβάλλονται από την κυβέρνηση θα ήταν ιδιαίτερα αντιπαραγωγικά δεδομένου ότι οι μέθοδοι αξιολόγησης καθίστανται ξεπερασμένες μέσα σε μήνες λόγω του ρυθμού των τεχνολογικών αλλαγών”, ένα νεύμα στον γρήγορο ρυθμό της καινοτομίας που μπορεί να καταστήσει τους συγκεκριμένους τεχνικούς κανόνες παρωχημένους σχεδόν αμέσως. Το Anthropic υποδηλώνει κατώτατα όρια, όπως 100 εκατομμύρια δολάρια σε ετήσια έσοδα ή 1 δισεκατομμύριο δολάρια σε δαπάνες Ε & Α για να αποφευχθούν οι νεοσύστατες επιχειρήσεις. Περιλαμβάνει επίσης διατάξεις για την προστασία των καταγγελιών, καθιστώντας την παράνομη για ένα εργαστήριο να ψέματα σχετικά με τη συμμόρφωσή του.

Αυτή η προσέγγιση επιδιώκει αποτελεσματικά να κωδικοποιήσει και να τυποποιήσει τις εθελοντικές δεσμεύσεις ασφαλείας από τα μεγάλα εργαστήρια. Εταιρείες όπως το Google DeepMind, openai και microsoft

Ο χρόνος αυτής της πρότασης είναι επίσης πολιτικά έξυπνος. Με μια πιθανή διοίκηση του Trump, σύμφωνα με πληροφορίες, επικεντρώθηκε περισσότερο στον ανταγωνισμό AI από ό, τι οι αυστηροί κανόνες, αυτό το πλαίσιο”Light-touch”θα μπορούσε να θεωρηθεί ως μια πιο ευχάριστη διαδρομή προς τα εμπρός για τους υπεύθυνους χάραξης πολιτικής. Είναι μια άμεση απάντηση σε ένα χρόνο που μαστίζεται από υψηλού προφίλ αποτυχίες AI που έχουν διαβρώσει την εμπιστοσύνη του κοινού. Η βιομηχανία αντιμετωπίζει την αναδυόμενη και συχνά απρόβλεπτη συμπεριφορά των πιο προηγμένων συστημάτων της.

Πρόσφατες έρευνες αποκάλυψαν ανησυχητικές τάσεις. Ένας πρώην ερευνητής της OpenAI, Steven Adler, δημοσίευσε μια μελέτη που ισχυρίζεται ότι”τα σύγχρονα συστήματα AI έχουν τιμές διαφορετικές από αυτό που θα περίμενε κανείς να είναι”, αφού οι δοκιμές του έδειξαν ότι η GPT-4O δίνει προτεραιότητα στην αυτοσυντήρηση για την ασφάλεια των χρηστών. Αυτό ακολούθησε την έρευνα της OpenAi που εντοπίζει ένα ελεγχόμενο”κακοποιημένο πρόσωπο”μέσα στα μοντέλα του. Αυτά τα περιστατικά υπογραμμίζουν ένα αυξανόμενο χάσμα μεταξύ της προβλεπόμενης λειτουργίας και της πραγματικής συμπεριφοράς. Το ελάττωμα”echoleak”στο Microsoft 365 Copilot ήταν ένα μηδενικό κλικ στην εκμετάλλευση που επέτρεψε στους επιτιθέμενους να εξαπατήσουν το AI σε διαρροές εταιρικών δεδομένων μέσω ενός ενιαίου ηλεκτρονικού ταχυδρομείου. Αντιμετωπίζοντας μια αναμέτρηση για τις ηθικές παραλείψεις σε αναπτυγμένα προϊόντα. Η εφαρμογή αλληλογραφίας της Apple ήρθε υπό πυρκαγιά για ένα χαρακτηριστικό ταξινόμησης AI που έλαβε τα μηνύματα ηλεκτρονικού ταχυδρομείου phishing ως”σημαντικά”, δανείζοντας ψευδή αξιοπιστία. href=”https://www.gartner.com/en/newsroom/press-releases/2024-10-22-gartner-unveils-top-predictions-for-it-organizations-and-users-in-2025-and-beyond”target=”_ _ _ Ο κίνδυνος επιδεινώνεται με εσωτερική αναταραχή στα κορυφαία εργαστήρια της βιομηχανίας. Ο ίδιος δήλωσε δημοσίως ότι στην εταιρεία,”η κουλτούρα ασφαλείας και οι διαδικασίες έχουν πάρει ένα πίσω κάθισμα σε γυαλιστερά προϊόντα”, ένα συναίσθημα που αντηχούσε με πολλούς κριτικούς που αισθάνονται ότι ο αγώνας για ικανότητα είναι να ξεπεράσει την πειθαρχία για την ασφάλεια. Με την ώθηση για δημόσια λογοδοσία και την τυποποίηση των γνωστοποιήσεων ασφαλείας, η εταιρεία προσπαθεί να δημιουργήσει μια νέα βασική γραμμή για την υπεύθυνη ανάπτυξη. Η πρόταση χρησιμεύει τόσο ως πρακτικό εργαλείο όσο και ως στρατηγική κίνηση για να διαμορφώσει το μέλλον του κανονισμού AI.

Το Anthropic προτείνει το πλαίσιο διαφάνειας AI για την αντιμετώπιση της κρίσης ασφαλείας σε ολόκληρο τον κλάδο

Published by All Things Windows on July 8, 2025

IT Info

Η Meta επενδύει 3,5 δισεκατομμύρια δολάρια σε γονέα Ray-Ban Essilorluxottica για να τροφοδοτήσει τα γυαλιά AI Push

IT Info

Windows 11 Ιουλίου Ενημέρωση KB5062553 φέρνει νέα γραμμή εργασιών, μετοχών, μετανάστευση PC, χαρακτηριστικά κουρτίνας οθόνης και άλλα. Σύνδεσμος λήψης.

IT Info

Replit συνεργάτες με τη Microsoft, μετατόπιση συμμαχιών κωδικοποίησης AI και προκλητικές Google Cloud

Το Anthropic προτείνει το πλαίσιο διαφάνειας AI για την αντιμετώπιση της κρίσης ασφαλείας σε ολόκληρο τον κλάδο

Published by All Things Windows on July 8, 2025

Related Posts

IT Info

Η Meta επενδύει 3,5 δισεκατομμύρια δολάρια σε γονέα Ray-Ban Essilorluxottica για να τροφοδοτήσει τα γυαλιά AI Push

IT Info

Windows 11 Ιουλίου Ενημέρωση KB5062553 φέρνει νέα γραμμή εργασιών, μετοχών, μετανάστευση PC, χαρακτηριστικά κουρτίνας οθόνης και άλλα. Σύνδεσμος λήψης.

IT Info

Replit συνεργάτες με τη Microsoft, μετατόπιση συμμαχιών κωδικοποίησης AI και προκλητικές Google Cloud