Google đã tạo ra mô hình AI tiên tiến nhất của mình, Gemini 2.5 Pro (thử nghiệm), có sẵn cho tất cả người dùng ứng dụng web Gemini miễn phí, thay thế một cách trực tiếp phiên bản cũ hơn và xóa bảng thanh toán trước đó. Thay vào đó, người dùng nhận thấy sự thay đổi bên trong chính ứng dụng Web Gemini, trong đó các phản hồi hiện được quy cho là Gem Gemini 2.5 Pro (EXP)”cho mỗi mặc định cho một số người. Người dùng miễn phí hiện có thể chọn Gemini 2.5 Pro thông qua bộ chọn mô hình. Sự cấp bách đó chỉ ra một sự thay đổi trong chiến lược, Google Google không còn hạn chế AI hàng đầu của nó đằng sau một tường thuật, mà là chuyển nó cho mọi người, miễn phí. src=”Data: Image/SVG+XML; CIIHDPZHROPSIXMDI0IIBOZWLNAHQ9IJGZNYIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB

Gemini 2.5 Pro đang cất cánh 🚀🚀🚀

Nhóm đang chạy nước rút, TPU đang chạy nóng và chúng tôi muốn đưa mô hình thông minh nhất của chúng tôi vào nhiều người hơn. href=”https://t.co/eqcjwwvhxj”target=”_blank”> https://t.co/eqcjwwwvhxj

-ứng dụng Google Gemini (@geminiapp)

Chỉ năm ngày trước đó, vào ngày 25 tháng 3, Gemini 2.5 Pro được cung cấp riêng để trả tiền cho những người đăng ký của Gemini Advanced và người dùng của Google AI Studio. Phiên bản đó đầu tiên được giới hạn trong gói cao cấp $ 19,99/tháng của Google One AI. Vào cuối tuần, phiên bản thử nghiệm của cùng một mô hình đã trở thành mặc định cho mọi người sử dụng ứng dụng Gemini, bao gồm cả các ứng dụng trên tầng miễn phí. Nó cũng phản ánh niềm tin vào hiệu suất của mô hình và sự sẵn sàng trong thế giới thực, ngay cả ở dạng thử nghiệm. Không giống như các mô hình tổng quát truyền thống dựa vào các dự đoán đơn, mô hình này thực hiện xác minh logic nhiều bước để tăng cường lý luận của nó. 

Cửa sổ bối cảnh lớn đó cho phép Gemini xử lý toàn bộ sách, hợp đồng pháp lý hoặc cơ sở mã trong một lần. Trên điểm chuẩn MRCR 128K, kiểm tra sự hiểu biết về nội dung dài, Gemini đạt được độ chính xác 91,5% và giữ lại hiệu suất 83,1% ở quy mô đầy đủ, đáng kể trước GPT-4,5. href=”https://lmarena.ai/?leaderboard”Target=”_ Blank”> Topping bảng xếp hạng Lmarena với gần 40 điểm. Đối với các tác vụ đa phương thức liên quan đến cả văn bản và hình ảnh, nó đã đạt 81,7% trên điểm chuẩn MMMU trước đây trước Claude 3.7 Sonnet và GPT-4.5.

Tuy nhiên, hiệu suất thay đổi giữa các danh mục. Gemini đạt 52,9% trên Simpleqa, một bài kiểm tra thu hồi thực tế, theo dõi GPT-4,5, 62,5%. Trong các kịch bản kỹ thuật phần mềm tự trị (mã hóa tác nhân), Claude 3.7 Sonnet vẫn dẫn đến 70,3%, trong khi Gemini theo dõi ở mức 63,8%.