Openai’s O3-Mini High και GPT-4,5, XAI’s Grok 3 Beta, CLAUDE 3,7 Sonnet του Anthropic και Deepseek R1. Τα αποτελέσματα δείχνουν ένα μοντέλο που οδηγεί σε ορισμένες περιοχές ενώ αντιμετωπίζει τον ανταγωνισμό σε άλλους. Στις τελευταίες εξετάσεις της ανθρωπότητας, μια πολυτροπική δοκιμή που καλύπτει τα μαθηματικά, τις ανθρωπιστικές επιστήμες και τις φυσικές επιστήμες, το Gemini 2,5 Pro σημείωσε το 18,8%. Ενώ η Gemini 2.5 ξεπερνά αυτούς τους ανταγωνιστές, δεν παρέχεται καμία άμεση σύγκριση με την πιο προηγμένη GPT-4.5 του OpenAI, καθιστώντας δύσκολη την καθορισμό του τρόπου με τον οποίο το μοντέλο της Google ενάντια στην κορυφαία εξέλιξη του OpenAI, ιδιαίτερα για την επίλυση των προβλημάτων. Το Gemini 2.5 Pro πέτυχε ποσοστό ακρίβειας 92,0%στο σύνολο δεδομένων AIME 2024, ένα σημείο αναφοράς που σχεδιάστηκε για να αξιολογήσει την ικανότητα ενός μοντέλου να λύσει την προηγμένη άλγεβρα και τα προβλήματα θεωρίας αριθμών. Ωστόσο, όταν εξετάζουμε τα μοντέλα ικανά για πολλαπλές αντιδράσεις, οι Grok 3 Beta και Deepseek R1 εκτελούσαν ελαφρώς καλύτερες, σημειώνοντας και 93,3%. Αυτό υποδηλώνει ότι ενώ το Gemini 2.5 είναι ιδιαίτερα ικανό σε μια μονοκατοικία, άλλα μοντέλα μπορεί να έχουν ελαφρά πλεονεκτήματα όταν επιτρέπεται να επαναλάβουν τις απαντήσεις τους. Στο LiveCodeBench, ένα ευρέως χρησιμοποιούμενο πρότυπο για την αξιολόγηση των δυνατοτήτων κωδικοποίησης AI, το Openai’s O3-Mini High Leads με ένα ποσοστό ακρίβειας 74,1%, που ξεπερνά το Gemini 2,5 Pro’s 70,4%. Το Sonnet και το Deepseek R1. Ο Δίδυμος 2,5, στο 63,8%, είναι ανταγωνιστικός, αλλά δεν ανταποκρίνεται στην αποτελεσματικότητα του Claude στην αυτόνομη εκτέλεση του κώδικα. [Ενσωματωμένο περιεχόμενο]
Η πραγματική ακρίβεια και η ανάκτηση πληροφοριών
Στο σύνολο δεδομένων SimpleQA, το οποίο δοκιμάζει την ικανότητα του AI να παρέχει συνοπτικές και πραγματικά ακριβείς απαντήσεις, η GPT-4,5 της OpenAI οδηγεί με 62,5%, ακολουθούμενη από το Gemini 2,5 στο 52,9%. Αυτά τα αποτελέσματα υποδεικνύουν ότι ενώ το Gemini 2.5 εκτελεί καλά στην πραγματική ακρίβεια, τα πιο προηγμένα μοντέλα του OpenAi εξακολουθούν να κατέχουν ένα ισχυρό πλεονέκτημα για να εξασφαλίσουν την αξιοπιστία των πληροφοριών. συλλογιστική. Βαθμολογεί το 81,7%στο σημείο αναφοράς MMMU, μια δοκιμή που αξιολογεί την κατανόηση των οπτικών δεδομένων AI, πολύ μπροστά από το GPT-4,5 (74,4%) και το CLAUDE 3,7 Sonnet (75,0%). Επιτυγχάνει ακρίβεια 91,5% στο MRCR 128K, η οποία αξιολογεί την κατακράτηση των μεγάλων ακολουθιών κειμένου AI και διατηρεί 83,1% απόδοση σε κλίμακα 1 εκατομμυρίου token-ανώτερο από την καλύτερη διαθέσιμη απόδοση του OpenAI 36,3%. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mtc2ndoxodk5-1, base64, phn2zyb2awv3qm94psiwidagnzcwidewmjqiiH dpzhropsi3nzaiighlawdodd0imtayncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> Πηγή: Google
Εξέλιξη Gemini της Google: Από το Bard στην AI-First Integration
Η εξέλιξη του Gemini αναμορφώνει το οικοσύστημα AI της Google. Αρχικά ξεκίνησε ως BARD, η μετάβαση σε Δίδυμους σηματοδότησε μια στροφή προς την πιο προηγμένη συλλογιστική AI και βαθιά ενσωμάτωση σε όλες τις υπηρεσίες της Google. Αυτή η μετατόπιση έχει επιταχυνθεί μόνο με τις τελευταίες εξελίξεις.
Μια από τις μεγαλύτερες αλλαγές είναι η απόφαση της Google να αντικαταστήσει το Google Assistant με τον Gemini AI, σηματοδοτώντας τη δέσμευσή της να κάνει τον Gemini βοηθό AI. Σε αντίθεση με το Google Assistant, ο οποίος βασίστηκε σε προκαθορισμένες απαντήσεις, η Gemini προσφέρει δυνατότητες πολλαπλών δυνατοτήτων σε πραγματικό χρόνο, συμπεριλαμβανομένης της βοήθειας AI με βάση την οθόνη και των αλληλεπιδράσεων ζωντανής κάμερας μέσω του Gemini Live. Η τελευταία ενημέρωση του Google Drive ενσωματώνει τους Gemini για έξυπνες προτάσεις αρχείων και περιλήψεις που δημιουργούνται από το AI, βελτιώνοντας τη πλοήγηση εγγράφων. Εν τω μεταξύ, το Gmail διαθέτει τώρα την αναζήτηση με την AI, καθιστώντας την ανάκτηση ηλεκτρονικού ταχυδρομείου πιο διαισθητική. Η λειτουργία New Mind Maps, που παρουσιάστηκε τον Μάρτιο του 2025, επιτρέπει στους χρήστες να οργανώνουν οπτικά έρευνα, συμπληρώνοντας τις σημειώσεις που δημιουργούνται από το AI. Το OpenAI παραμένει ηγέτης στην πραγματική ακρίβεια και τη δομημένη συλλογιστική, ενώ η Google στοιχηματίζει σε πολυτροπικές AI, εξατομίκευση και ενσωμάτωση παραγωγικότητας. Εν τω μεταξύ, η Microsoft αξιοποιεί το Copilot AI για να ανταγωνιστεί τον Gemini σε επιχειρηματικές εφαρμογές και η Adobe πιέζει την αυτοματοποίηση που τροφοδοτείται με AI σε δημιουργικά εργαλεία. Σύμφωνα με πληροφορίες, η OpenAI εργάζεται σε μια εμπειρία αναζήτησης CHATGPT, ενώ οι τελευταίες ενημερώσεις της Google επιτρέπουν στον Gemini να χρησιμοποιεί το ιστορικό αναζήτησης για εξατομικευμένες απαντήσεις. Αυτή η κίνηση φέρνει τόσο τις νέες δυνατότητες AI όσο και τις ανησυχίες για την προστασία της ιδιωτικής ζωής, καθώς η Google στοχεύει να βελτιώσει τις αλληλεπιδράσεις AI, ενώ εξισορροπεί τον ρυθμιστικό έλεγχο. Ωστόσο, οι προκλήσεις παραμένουν, ιδιαίτερα στην πραγματική συνέπεια και το Agentic AI, όπου οι ανταγωνιστές όπως το OpenAI και το Anthropic εξακολουθούν να έχουν πλεονέκτημα. Καθώς οι βοηθοί, τα μοντέλα αναζήτησης και τα εργαλεία παραγωγικότητας συνεχίζουν να εξελίσσονται, η επόμενη γενιά του διαγωνισμού AI πιθανότατα θα επικεντρωθεί γύρω από την εξατομίκευση, τη συλλογιστική και την αλληλεπίδραση σε πραγματικό χρόνο.