Google đã tiết lộ thử nghiệm Song Tử 2.5, mô hình AI mới nhất của nó, mang lại những cải tiến đáng kể về lý luận có cấu trúc, khả năng đa phương thức và khả năng hiểu bối cảnh dài. Mô hình, hiện có sẵn cho Gemini Advanced và người dùng Google AI Studio, dự kiến ​​sẽ sớm ra mắt đến Vertex AI. Lý do

Một trong những nâng cấp đáng chú ý nhất trong Gemini 2.5 là khả năng áp dụng xác minh logic nhiều bước trước khi tạo phản hồi, cải thiện độ chính xác của nó trong giải quyết vấn đề phức tạp. src=”Dữ liệu: Image/SVG+XML; kiihdpzhropsixmdi0iiBozwlnahq9ijyyoSigeg1sBnm9Imh0DHa6LY93D3CUDZMUB

Google mô tả điều này 2.5 vận chuyển pro ngày hôm nay với cửa sổ bối cảnh 1 triệu mã thông báo (2 triệu sắp ra mắt), với hiệu suất mạnh giúp cải thiện qua các thế hệ trước”GPT-4.5, XAI từ Grok 3 Beta, Anthropic từ Claude 3.7 Sonnet và Deepseek R1. Kết quả cho thấy một mô hình dẫn đến một số lĩnh vực trong khi phải đối mặt với sự cạnh tranh ở những khu vực khác. Trong bài kiểm tra cuối cùng của loài người, một bài kiểm tra đa phương thức bao gồm toán học, nhân văn và khoa học tự nhiên, Gemini 2.5 Pro ghi được 18,8%. Trong khi Gemini 2.5 vượt trội so với các đối thủ này, nhưng không có sự so sánh trực tiếp nào với Openai, GPT-4.5 nâng cao hơn, gây khó khăn cho việc xác định cách thức mô hình Google Google xếp chồng lên nhau so với các vấn đề về mặt toán học. Gemini 2.5 Pro đã đạt được tỷ lệ chính xác 92,0%trên bộ dữ liệu AIME 2024, một điểm chuẩn được thiết kế để đánh giá khả năng của mô hình để giải quyết các vấn đề lý thuyết nâng cao và số lượng. Tuy nhiên, khi nhìn vào các mô hình có khả năng phản hồi nhiều người tham gia, Grok 3 beta và Deepseek R1 đã hoạt động tốt hơn một chút, cả hai đều đạt 93,3%. Điều này cho thấy rằng trong khi Gemini 2.5 có khả năng cao trong một môi trường không tham gia, các mô hình khác có thể có những lợi thế nhỏ khi được phép lặp lại câu trả lời của họ. Trên LiveCodeBench, một tiêu chuẩn được sử dụng rộng rãi để đánh giá khả năng mã hóa AI-hỗ trợ AI, OpenAI Lam O3-Mini dẫn cao với tỷ lệ chính xác 74,1%, vượt qua Gemini 2.5 Pro 70,4%. Tuy nhiên, Sonnet và Deepseek R1. Gemini 2.5, ở mức 63,8%, có khả năng cạnh tranh nhưng thiếu hiệu quả của Claude, trong việc thực hiện mã tự trị. Trên bộ dữ liệu SimpleQA, trong đó kiểm tra khả năng AI AI để cung cấp câu trả lời ngắn gọn và thực tế chính xác, OpenaiTHER GPT-4.5 dẫn với 62,5%, tiếp theo là Gemini 2,5 ở mức 52,9%. Những kết quả này chỉ ra rằng trong khi Gemini 2.5 thực hiện tốt về độ chính xác thực tế, các mô hình nâng cao hơn của Openai, vẫn giữ được lợi thế mạnh mẽ trong việc đảm bảo độ tin cậy thông tin. lý luận. Nó đạt 81,7%trên điểm chuẩn MMMU, một bài kiểm tra đánh giá sự hiểu biết của AI về dữ liệu trực quan, vượt xa GPT-4,5 (74,4%) và Claude 3.7 Sonnet (75,0%). Nó đạt được độ chính xác 91,5% trên MRCR 128K, đánh giá khả năng duy trì AI của các chuỗi văn bản lớn và duy trì hiệu suất 83,1% ở tỷ lệ 1 triệu người vượt trội so với hiệu suất lâu dài tốt nhất có sẵn của Openai là 36,3%.

src=”Dữ liệu: Image/SVG+XML; DPZHROPSI3NZAIIGHLAWDODDD0IMTAYNCIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB Google

Google Gem Gemini Evolution: Từ BARD đến tích hợp đầu tiên AI

Sự tiến hóa của Gemini, đang định hình lại hệ sinh thái Google AI AI. Ban đầu được ra mắt dưới dạng Bard, quá trình chuyển đổi sang Gemini đã đánh dấu sự thay đổi hướng tới lý luận AI tiên tiến hơn và tích hợp sâu trên các dịch vụ của Google. Sự thay đổi này chỉ được tăng tốc với những phát triển mới nhất. Không giống như Google Assistant, dựa vào các phản hồi được xác định trước, Gemini cung cấp các khả năng đa phương thức thời gian thực, bao gồm hỗ trợ AI dựa trên màn hình và tương tác camera trực tiếp thông qua Gemini Live. Bản cập nhật mới nhất của Google Drive tích hợp Gemini cho các đề xuất tệp thông minh và tóm tắt do AI tạo, cải thiện điều hướng tài liệu. Trong khi đó, Gmail hiện có tính năng tìm kiếm do AI cung cấp, làm cho việc truy xuất email trở nên trực quan hơn. Tính năng Mind Maps mới, được giới thiệu vào tháng 3 năm 2025, cho phép người dùng tổ chức trực quan nghiên cứu, bổ sung cho các ghi chú do AI tạo. OpenAI vẫn là một nhà lãnh đạo về độ chính xác thực tế và lý luận có cấu trúc, trong khi Google đang đặt cược vào AI đa phương thức, cá nhân hóa và tích hợp năng suất. Trong khi đó, Microsoft đang tận dụng Copilot AI để đối thủ Gemini trong các ứng dụng kinh doanh và Adobe đang thúc đẩy tự động hóa AI trong các công cụ sáng tạo. OpenAI được cho là đang làm việc trên trải nghiệm tìm kiếm được hỗ trợ bởi Chatgpt, trong khi các bản cập nhật mới nhất của Google cho phép Song Tử sử dụng lịch sử tìm kiếm cho các phản hồi được cá nhân hóa. Động thái này mang lại cả khả năng AI và mối quan tâm về quyền riêng tư mới, vì Google nhằm mục đích tinh chỉnh các tương tác AI trong khi cân bằng sự giám sát theo quy định. Tuy nhiên, những thách thức vẫn còn, đặc biệt là tính nhất quán và AI tác nhân, nơi các đối thủ cạnh tranh như Openai và Nhân học vẫn giữ được một lợi thế. Là trợ lý hỗ trợ AI, các mô hình tìm kiếm và các công cụ năng suất tiếp tục phát triển, thế hệ cạnh tranh AI tiếp theo có thể sẽ tập trung vào cá nhân hóa, lý luận và tương tác đa phương thức thời gian thực.

Categories: IT Info