Επτά μήνες μετά την αναχώρηση της Intel, ο πρώην διευθύνων σύμβουλος Pat Gelsinger την Πέμπτη παρουσίασε ένα νέο σημείο αναφοράς που έχει σχεδιαστεί για να μετρήσει εάν το AI είναι πραγματικά καλό για τους ανθρώπους. Μέσω του νέου ρόλου του στην εταιρεία”Faith Tech”Gloo, ο Gelsinger ξεκίνησε το
> Ένα από αυτά τα καπέλα περιλαμβάνει βαθιά τεχνολογία που επενδύει στην παιδική χαρά Global. Ο άλλος είναι ο ρόλος του ως Εκτελεστικός Πρόεδρος και επικεφαλής της τεχνολογίας στο Gloo, μια εταιρεία που επένδυσε για πρώτη φορά σε μια δεκαετία πριν. Αυτή η κίνηση αντικατοπτρίζει ένα μακροχρόνιο πάθος για τη διασταύρωση της πίστης και της τεχνολογίας, που οδηγείται από την επιθυμία να εξασφαλιστεί ότι οι κοινότητες με βάση τις αξίες έχουν μια φωνή στη διαμόρφωση της εποχής AI. όπως το έβαλε μιλώντας στη νέα στοίβα,”Το κριτήριο για το «καλό» AI: το ακμάζον δείκτη αναφοράς AI
Η αναφορά αναφοράς AI (FAI), που ξεκίνησε επίσημα στις 10 Ιουλίου, αντιπροσωπεύει έναν σκόπιμο άξονα από την παραδοσιακή αξιολόγηση του ΑΙ. Αντιμετωπίζει άμεσα ένα σημαντικό κενό στην τρέχουσα έρευνα για την ασφάλεια. Ως επίσημη ανακοίνωση του Gloo states ,”Η τρέχουσα έρευνα ευθυγράμμισης AI επικεντρώνεται κυρίως στην πρόληψη των βλαβών και όχι στην ενεργό προώθηση της ανθρώπινης πεδία.” href=”https://gloo.com/flourishing-hub/research”target=”_ blank”> Κοινή προσπάθεια από ερευνητές στα πανεπιστήμια του Χάρβαρντ και Baylor
Το ίδιο το ερώτημα είναι ένα μείγμα αντικειμενικών ερωτήσεων πολλαπλών επιλογών και υποκειμενικών σεναρίων που βασίζονται σε κρίσεις. Αυτά προέρχονται από διάφορες πηγές, συμπεριλαμβανομένων των καθιερωμένων σημείων αναφοράς όπως η MMLU, οι επαγγελματικές εξετάσεις, τα ακαδημαϊκά έγγραφα και τα νέα σενάρια που δημιουργούνται από εμπειρογνώμονες για να δοκιμάσουν την πραγματική εφαρμογή αυτών των αξιών. Αυτοί οι δικαστές αξιολογούν τις απαντήσεις όχι μόνο για την κύρια διάσταση αλλά και για τις εφαπτόμενες. Για παράδειγμα, ένα οικονομικό ερώτημα μπορεί επίσης να βαθμολογηθεί για την ευθυγράμμισή του με τους «χαρακτήρες» ή «νόημα» ρουμπρίτς, εξασφαλίζοντας μια ολιστική αξιολόγηση.”Αλλά δεν είναι μόνο σωστό ή λάθος, είναι καλό;”Αν τα μοντέλα ανταποκρίνονται σε ανθρώπινα τρόπους, τότε… θα πρέπει να οδηγήσουν τους ανθρώπους να είναι καλύτεροι.”Αυτό το νέο κριτήριο είναι η απάντησή του σε αυτή την πρόκληση. δυνατότητες. Ενώ το μοντέλο O3 της OpenAI πέτυχε το υψηλότερο συνολικό σκορ των 72, ακολουθούμενη από τη σκέψη του Gemini 2.5 Flash (68) και το GROK 3 (67), κανένα μοντέλο δεν ξεπέρασε το κατώφλι των 90 σημείων που η ομάδα FAI ορίζει ότι είναι ευθυγραμμισμένη με την ανθρώπινη άνθηση. Η μέση βαθμολογία σε όλα τα μοντέλα της κατηγορίας «οικονομικών» ήταν ένα αξιοσέβαστο 81%. Σε έντονη αντίθεση, ο μέσος όρος για τη διάσταση «πίστης» ήταν μόλις 35%, υπογραμμίζοντας αυτό που ο Gloo ονομάζει «κρίσιμο έλλειμμα». Η συνολική μέση απόδοση σε όλα τα μοντέλα και οι επτά διαστάσεις ήταν μόλις 60%. Έλαβε βαθμολογία 87% στο «χαρακτήρα», ξεπερνώντας πολύ τους αντιπάλους του. Ωστόσο, ακόμη και ο ηγέτης σημείωσε σχετικά χαμηλό 43% στην «πίστη», υπογραμμίζοντας την καθολική φύση αυτής της πρόκλησης. Το Sonnet 3,7 Sonnet της Anthropic, ενώ τοποθετούσε χαμηλότερα συνολικά με βαθμολογία 65%, διακρίνεται με την απόκτηση του κορυφαίου βαθμού στην κατηγορία «νόημα» στο 67%, υποδηλώνοντας ότι η εκπαίδευσή του μπορεί να έχει διαφορετική φιλοσοφική ευθυγράμμιση. Το μοντέλο ανοιχτού κώδικα κορυφαίων, Deepseek-R1, σημείωσε ένα εντυπωσιακό 65% συνολικά, συνδέοντας με το Sonnet 3,7 Sonnet και ξεπέρασε αρκετά μεγάλα κλειστά μοντέλα. Έδειξε ιδιαίτερη δύναμη στις «σχέσεις» (74%) και «πίστη» (40%), καθιστώντας την ιδιαίτερα ανταγωνιστική με τα κορυφαία ιδιόκτητα συστήματα σε αυτούς τους συγκεκριμένους τομείς. Η απόδοσή του ήταν ισορροπημένη, αλλά δεν οδήγησε σε καμία κατηγορία, υποδεικνύοντας μια πιο γενικευμένη ικανότητα χωρίς τα εξειδικευμένα πλεονεκτήματα που παρατηρήθηκαν σε ορισμένους ανταγωνιστές. Αυτά τα κοκκώδη αποτελέσματα καταδεικνύουν το βοηθητικό πρόγραμμα αναφοράς του FAI να προχωρήσει πέρα από ένα μόνο σκορ για να αποκαλύψει τις μοναδικές”προσωπικότητες”των διαφορετικών συστημάτων AI. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mty1mjoxoda0-1, base64, phn2zyb2awv3qm94psiwidagotu5idczoc Igd2lkdgg9ijk1osigagvpz2H0psi3MzGiiHHTBG5ZPSJODHRWOI8VD3D3LNCZLM9YZY8YMDAWL3N2ZYI+PC9ZDMC+”>
Pat Gelsinger σχολίασε απευθείας τα αποτελέσματα, σημειώνοντας την ανωριμότητα των μοντέλων σε βασικούς τομείς.”Οι περισσότερες από τις περιοχές, όπως ο χαρακτήρας, η ευτυχία, οι σχέσεις-δεν είναι ακόμα τόσο καλοί. Εννοώ, βλέπουμε αυτές τις βαθμολογίες στη δεκαετία του’50.