Η Google έκανε ήσυχα το μοντέλο Gemini 2.5 Pro (πειραματικό) διαθέσιμο σε όλους όσους χρησιμοποιούν την δωρεάν εφαρμογή Web από την 29η Μαρτίου, μια εξαιρετικά γρήγορη επέκταση μόλις λίγες μέρες μετά το αρχικό ντεμπούτο της στις 25 Μαρτίου για την πληρωμή συνδρομητών και προγραμματιστών. Αυτή η ευρεία διαθεσιμότητα φέρνει μία από τις πιο ενδιαφέρουσες, υπογραμμισμένες δυνατότητες του μοντέλου σε ένα μαζικό ακροατήριο: μια εμφανή ικανότητα για την κατανόηση όχι μόνο του κειμένου μέσα στα έγγραφα PDF, αλλά και την οπτική τους δομή. Ο Filimonov, ο συνιδρυτής του MatRisk, μια εκκίνηση AI που ειδικεύεται στην ασφάλιση αρχειοθέτησης, προτείνει το Gemini 2.5 Pro σηματοδοτεί μια απόκλιση από προηγούμενα μοντέλα γλωσσών, προσφέροντας ανώτερες δυνατότητες χειρισμού PDF. αναφέροντας με ακρίβεια τις πληροφορίες σε μακρά έγγραφα. Περιέγραψε μοντέλα δοκιμών για σχεδόν δύο χρόνια σχετικά με την ικανότητά τους να εντοπίζουν την ακριβή τοποθεσία (πλαίσιο οριοθέτησης) ενός αποσπάσματος κειμένου μέσα σε μια εικόνα σελίδας PDF. Αποτελέσματα, έγραψε, μέχρι να δοκιμάσει το Gemini 2.5 Pro. Στην εσωτερική του αξιολόγηση, το μοντέλο πέτυχε μια διασταύρωση πάνω από την ένωση (IOU) βαθμολογία-μια μετρική μέτρηση της επικάλυψης μεταξύ του προβλεπόμενου πλαισίου οριοθέτησης και του πραγματικού-0,804 για αυτή τη συγκεκριμένη εργασία, υποδεικνύοντας μια ισχυρή αντίληψη για το πού βρίσκεται οπτικά στη σελίδα. Ο Filimonov κατέληξε στο συμπέρασμα ότι αυτό καθιστά”ακριβείς, οπτικές αναφορές PDF… μια πραγματικότητα”
Σχέδια εγγράφων αποκωδικοποίησης
Επιβεβαιώνει τα μοντέλα Gemini PROCESS PDFS χρησιμοποιώντας “Native Vision”. Μεγάλο παράθυρο περιβάλλοντος 1 εκατομμυρίου συμβολαίων, επιτρέποντάς του να καταπιεί και να αναλύει αποτελεσματικά τα μακρά έγγραφα. Η τεκμηρίωση του Gemini API περιγράφει λειτουργίες όπως η ανάλυση αυτών των οπτικών στοιχείων, η εξόρυξη δομημένων πληροφοριών, η απάντηση σε ερωτήσεις που βασίζονται σε συνδυασμένα κείμενο και τα γραφικά και τη μεταγραφή PDFs σε άλλες μορφές ενώ προσπαθούν να διατηρήσουν την αρχική διάταξη. Ορισμένα σχόλια τρίτου μέρους, όπως ένα post on the-prompt Engineering ubs onplice προειδοποιεί την ακρίβεια του μοντέλου σε αυτόν τον τομέα. Η επίσημη τεκμηρίωση λίστες”χωροταξική συλλογιστική”ως περιορισμός αντικείμενα.”
Αυτό υποδηλώνει ότι ενώ το Gemini 2.5 Pro δείχνει την υπόσχεση στην κατανόηση της διάταξης για ορισμένα καθήκοντα, όπως και η δοκιμασία Filimonov, η επίτευξη ακρίβειας και της ακρίβειας για όλα τα χωρικά ερωτήματα μέσα σε ένα έγγραφο παραμένει σε εξέλιξη, ενδεχομένως οδηγώντας σε ασυνέπειες για τους χρήστες που αναζητούν ακριβείς θέσεις. Δεν υπάρχει σε κενό. Ο ανταγωνιστής Anthropic εισήγαγε μια δυνατότητα”Visual PDFS”για το μοντέλο CLAUDE 3.5 Sonnet Back Περίπου το Νοέμβριο του 2024 , επιτρέποντάς του να αναλύσει το μικτό περιεχόμενο μέσα στα έγγραφα, αν και κυρίως για τους αμειβόμενους χρήστες ή μέσω API με διαφορετικά όρια. δραστηριότητα και κάποια εξέταση. Η Google έσπρωξε το μοντέλο γενικά πριν απελευθερώσει λεπτομερή τεκμηρίωση ασφαλείας. Μια αρχική”κάρτα μοντέλου”που δημοσιεύθηκε γύρω στις 16 Απριλίου επέστρεψε την κριτική από τους ειδικούς της AI διακυβέρνησης, όπως ο Kevin Bankston στο Κέντρο Δημοκρατίας και Τεχνολογίας, ο οποίος το χαρακτήρισε”πενιχρό”και ανησυχεί για μια”ανησυχητική ιστορία ενός αγώνα στο κατώτατο σημείο της ΑΙ ΑΙ ΣΤΗΝ ΑΣΦΑΛΕΙΑ ΚΑΙ ΔΙΑΦΟΡΕΣ ΔΙΕΥΘΥΝΣΗ Οι εταιρείες τους. που διατίθεται γενικά.”Αυτό το πλαίσιο της ταχείας επανάληψης είδε επίσης την προεπισκόπηση του Gemini 2,5 Flash στις 18 Απριλίου, ένα μοντέλο συζήτησε για πρώτη φορά δημοσίως στις 9 Απριλίου και βελτιστοποιήθηκε για ταχύτητα και αποδοτικότητα μέσω του χειρισμού του Gemini, Distinct από το General Protbility, το General Provities. (με 2 εκατομμύρια προγραμματισμένα σύμφωνα με την ανακοίνωση της 25ης Μαρτίου της Google), περιλαμβάνουν ισχυρές επιδόσεις στην πολυτροπική συλλογιστική (βαθμολογώντας το 81,7% σε δείκτες αναφοράς MMMU) και τα σύνθετα μαθηματικά (52,9% στο SimpleQa Vs.4). και το CLAUDE 3,7 Sonnet του Anthropic σε αυτόνομες ασκήσεις κωδικοποίησης. Αυτό τοποθετεί το Gemini 2.5 Pro ως ένα ισχυρό και ευπροσάρμοστο μοντέλο με συγκεκριμένα πλεονεκτήματα, ιδιαίτερα σε εργασίες πολλαπλών και μεγάλων περιεχομένων, αλλά ένα από τις επιδόσεις του οποίου ποικίλλει ανάλογα με τον συγκεκριμένο τομέα εφαρμογής όταν μετράται έναντι των κορυφαίων αντιπάλων του στο ταχέως εξελισσόμενο πεδίο.