Google vừa công bố Gemini 2.0 Flash Thought, một mô hình suy luận thử nghiệm được thiết kế để giải quyết các vấn đề phức tạp sử dụng nhiều loại dữ liệu. Mô hình mới cho phép người dùng xem các bước cần thiết để đi đến câu trả lời, cung cấp thông tin chi tiết về quy trình phân tích.
Gemini 2.0 Flash Thought là phản hồi trực tiếp cho các mô hình lý luận o1 của OpenAI, trong đó Google nhấn mạnh tính minh bạch và tốc độ là đặc điểm chính trong thiết kế của nó.
Mẫu thiết kế chu đáo nhất của chúng tôi:) https://t.co/xIz3w5dtGJ
— Sundar Pichai (@sundarpichai) Ngày 19 tháng 12 năm 2024
Quy trình lập luận được hiển thị từng bước
Đặc điểm chính của Tư duy chớp nhoáng của Song Tử 2.0 là tập trung vào việc đưa ra quy trình lý luận dễ hiểu đối với người dùng. Điều này trái ngược với một số hệ thống AI tiên tiến trong đó quá trình ra quyết định thường không rõ ràng.
Không giống như các mô hình suy luận o1 của OpenAI, mô hình mới của Google cung cấp cách để người dùng thực hiện theo các bước nhận thức của nó thông qua giao diện người dùng. Theo tài liệu chính thức của Google, “Chế độ tư duy” trong mô hình này cung cấp khả năng suy luận mạnh mẽ hơn so với mô hình Flash Gemini 2.0 tiêu chuẩn.
Tính năng này giải quyết mối lo ngại về “hộp đen” thường liên quan đến AI, điều chỉnh mô hình với ý tưởng làm cho hoạt động của nó dễ hiểu hơn. Những quan sát ban đầu cho thấy mô hình này có thể giải quyết nhanh chóng và hiệu quả các vấn đề gây khó khăn cho các hệ thống AI khác.
Xử lý đa phương thức tích hợp
Một tính năng quan trọng khác của Gemini 2.0 Flash Thought là khả năng xử lý hình ảnh đầu vào cùng với văn bản. Mặc dù o1 của OpenAI ban đầu chỉ hoạt động với văn bản trước khi thêm các tính năng hình ảnh sau đó, nhưng mô hình của Google được thiết kế để xử lý nhiều loại dữ liệu ngay từ đầu.
Khả năng tích hợp này cho phép mô hình giải quyết các tình huống phức tạp cần phân tích dữ liệu các loại thông tin khác nhau. Ví dụ: mô hình có thể giải các câu đố yêu cầu sử dụng cả văn bản và hình ảnh, thể hiện khả năng hoạt động với các định dạng dữ liệu khác nhau. Các nhà phát triển hiện có thể truy cập các tính năng này thông qua Google AI Studio và Vertex AI .
Kết quả điểm chuẩn
Kết quả đầu tiên từ bảng xếp hạng điểm chuẩn Chatbot Arena cho Gemini-2.0-Flash-Thinking-exp-1219 đã được thử nghiệm chương trình mô hình a hiệu suất nhìn chung là vượt trội khi so sánh với các mẫu OpenAi o1 được liệt kê (o1-preview và o1-mini).
Gemini-2.0-Flash-Thinking #1 trên tất cả các danh mục! pic.twitter.com/mRctNA31B9
— lmarena.ai (trước đây là lmsys.org) (@lmarena_ai) Ngày 19 tháng 12 năm 2024
Chống lại o1-preview, Gemini-2.0-Tư duy chớp nhoáng vượt trội đáng kể về hiệu suất tổng thể, Tổng thể có phong cách Kiểm soát, Viết sáng tạo, Làm theo hướng dẫn và Truy vấn dài hơn. Họ đạt được cùng thứ hạng trong Lời nhắc khó, Lời nhắc khó với Kiểm soát phong cách, Viết mã và Toán. So với o1-mini, Gemini-2.0-Flash-Thinking vượt trội đáng kể về hiệu suất tổng thể, Tổng thể với Kiểm soát phong cách, Lời nhắc cứng rắn, Lời nhắc cứng rắn với Kiểm soát phong cách, Viết sáng tạo, Làm theo hướng dẫn và Dài hơn Truy vấn. Họ đạt được cùng thứ hạng trong môn Mã hóa và Toán học.
Điều quan trọng cần lưu ý là sự so sánh này chỉ bao gồm các phiên bản”xem trước”và”mini”của mẫu o1. Các phiên bản phát hành ổn định của o1 và o1 Pro không có trong tổng quan này, điều đó có nghĩa là nó không phản ánh sự so sánh với các bản phát hành ổn định có khả năng cao hơn của dòng mẫu o1.
Tuy nhiên, dựa trên dữ liệu có sẵn, Gemini-2.0-Flash-Thinking-exp-1219 thể hiện cấu hình hiệu suất mạnh hơn đáng kể so với các mô hình o1-preview và o1-mini.
Chi tiết về Gemini 2.0 Tư duy chớp nhoáng
Tư duy chớp nhoáng của Gemini 2.0 hiện có sẵn dưới dạng thử nghiệm trong Google AI Studio. Nó được xây dựng trên nền tảng của mô hình Gemini 2.0 Flash được phát hành gần đây.
Jeff Dean, Nhà khoa học trưởng của Google DeepMind, giải thích rằng mô hình này”được đào tạo để sử dụng suy nghĩ để củng cố lý luận của nó”. Ông cũng lưu ý”kết quả đầy hứa hẹn khi chúng tôi tăng thời gian tính toán suy luận”, đề cập đến lượng tài nguyên máy tính được sử dụng khi xử lý truy vấn.
Giới thiệu Gemini 2.0 Flash Thought, một mô hình thử nghiệm thể hiện rõ ràng suy nghĩ của nó.
Được xây dựng trên tốc độ và hiệu suất của Flash 2.0, mô hình này được đào tạo để sử dụng suy nghĩ nhằm củng cố lý luận của nó.
Và chúng tôi thấy kết quả đầy hứa hẹn khi tăng thời gian suy luận…
— Jeff Dean (@JeffDean) Ngày 19 tháng 12 năm 2024
Dean cũng chia sẻ một bản demo trong đó mô hình đã giải quyết được một vấn đề vật lý phức tạp.
Bạn muốn xem cách Tư duy chớp nhoáng của Gemini 2.0 hoạt động như thế nào? Hãy xem bản demo này trong đó mô hình giải quyết một vấn đề vật lý và giải thích lý do của nó. pic.twitter.com/Nl0hYj7ZFS
— Jeff Dean (@JeffDean) Ngày 19 tháng 12, 2024
Mô hình này hỗ trợ độ dài ngữ cảnh lớn hơn 128k, có giới hạn 32.000 mã thông báo cho đầu vào và có thể tạo đầu ra có độ dài lên tới 8.000 mã thông báo. Nó đi kèm với thời điểm giới hạn kiến thức là tháng 8 năm 2024. Tài liệu của Google nêu rõ rằng “Chế độ Tư duy có khả năng phản hồi mạnh mẽ hơn so với mô hình Gemini 2.0 Flash cơ bản”, nhấn mạnh vào khả năng phân tích được cải thiện.
Hiện tại, mô hình được cung cấp miễn phí trong Google AI Studio, nhưng tài liệu cho biết rằng một số tính năng tích hợp, chẳng hạn như chức năng Google Tìm kiếm, vẫn chưa khả dụng. Mô hình này được thiết kế đặc biệt cho các nhiệm vụ “hiểu biết, lý luận” và “mã hóa” đa phương thức.
Cạnh tranh với OpenAI’s Premium. Cung cấp
Việc giới thiệu Gemini 2.0 Flash Thought diễn ra ngay sau khi OpenAI ra mắt ChatGPT Pro phiên bản đầy đủ của mô hình lý luận o1 vào ngày 5 tháng 12, nêu bật sự cạnh tranh ngày càng tăng trong lĩnh vực AI tiên tiến.
Google ra mắt Gemini 2.0 Flash Thought khi OpenAI gần đây đã thiết lập các dịch vụ cao cấp dành cho khả năng suy luận nâng cao. Trong khi chế độ o1 pro của OpenAI nhấn mạnh đến hiệu suất thông qua các tài nguyên tính toán tăng lên, thì Tư duy Flash Gemini 2.0 của Google nhấn mạnh tính minh bạch của quy trình lý luận.
Sự khác biệt này nêu bật các chiến lược tương phản đang được sử dụng trong quá trình phát triển AI, trong đó một số tập trung vào sức mạnh tính toán và một số khác ưu tiên sự hiểu biết và tin cậy của người dùng.