Nhóm nghiên cứu Qwen tại Alibaba đã giới thiệu QVQ-72B, một mô hình AI đa phương thức nguồn mở được thiết kế để kết hợp lý luận trực quan và văn bản. Với khả năng xử lý hình ảnh và văn bản từng bước, mô hình này đưa ra một cách tiếp cận mới để giải quyết vấn đề thách thức sự thống trị của các hệ thống độc quyền như GPT-4 của OpenAI.
Nhóm Qwen của Alibaba mô tả QVQ-72B là một bước hướng tới mục tiêu dài hạn của họ là tạo ra một AI toàn diện hơn có khả năng giải quyết các vấn đề khoa học và phân tích thách thức.
Bằng cách cung cấp mô hình mở theo giấy phép Qwen, Alibaba đặt mục tiêu thúc đẩy sự hợp tác trong cộng đồng AI đồng thời thúc đẩy sự phát triển trí tuệ nhân tạo tổng hợp (AGI). Được định vị vừa là công cụ nghiên cứu vừa là ứng dụng thực tế, QVQ-72B đại diện cho một cột mốc mới trong quá trình phát triển của AI đa phương thức.
Lý luận bằng hình ảnh và văn bản
Các mô hình AI đa phương thức như QVQ-72B được xây dựng để phân tích và tích hợp nhiều loại đầu vào—hình ảnh và văn bản—vào một quy trình lý luận gắn kết. Khả năng này đặc biệt có giá trị đối với các tác vụ yêu cầu diễn giải dữ liệu ở nhiều định dạng khác nhau, chẳng hạn như nghiên cứu khoa học, giáo dục và phân tích nâng cao.
Về cốt lõi, QVQ-72B là phần mở rộng của Qwen2-VL-72B, mô hình ngôn ngữ tầm nhìn trước đây của Alibaba. Nó giới thiệu các tính năng lý luận nâng cao cho phép nó xử lý hình ảnh và các lời nhắc văn bản liên quan bằng cách tiếp cận logic, có cấu trúc. Không giống như nhiều hệ thống nguồn đóng, QVQ-72B được thiết kế minh bạch và dễ tiếp cận, cung cấp mã nguồn và trọng lượng mô hình cho các nhà phát triển và nhà nghiên cứu.
“Hãy tưởng tượng một AI có thể xem xét một vấn đề vật lý phức tạp, và suy luận một cách có phương pháp để tìm ra giải pháp với sự tự tin của một nhà vật lý bậc thầy”, nhóm Qwen mô tả tham vọng của mình với mô hình mới để vượt trội trong các lĩnh vực mà khả năng lý luận và hiểu biết đa phương thức là rất quan trọng.
Hiệu suất Và Điểm chuẩn
Hiệu suất của mô hình được đánh giá bằng cách sử dụng một số điểm chuẩn nghiêm ngặt, mỗi điểm kiểm tra các khía cạnh khác nhau của khả năng suy luận đa phương thức của nó:
Trong điểm chuẩn MMMU (Đại học Đa ngành Đa phương thức), trong đó đánh giá khả năng thực hiện ở cấp độ đại học, kết hợp lý luận dựa trên văn bản và hình ảnh, QVQ-72B đạt số điểm ấn tượng 70,3, vượt qua người tiền nhiệm Qwen2-VL-72B-Instruct.
The Điểm chuẩn MathVista đã kiểm tra mức độ thành thạo của mô hình trong việc giải quyết các vấn đề toán học bằng cách sử dụng đồ thị và phương tiện hỗ trợ trực quan, nêu bật các điểm mạnh phân tích của mô hình. Tương tự, MathVision, bắt nguồn từ các cuộc thi toán học trong thế giới thực, đã đánh giá khả năng suy luận trên các lĩnh vực toán học đa dạng.
Cuối cùng, điểm chuẩn OlympiadBench đã thử thách QVQ-72B với các bài toán song ngữ từ các cuộc thi toán và vật lý quốc tế. Mô hình này đã thể hiện độ chính xác tương đương với các hệ thống độc quyền như GPT-4 của OpenAI, thu hẹp khoảng cách hiệu suất giữa AI nguồn mở và AI nguồn đóng.
Nguồn: Qwen
Mặc dù đã đạt được những thành tựu này nhưng vẫn còn những hạn chế. Nhóm Qwen lưu ý rằng các vòng lặp lý luận đệ quy và ảo giác trong quá trình phân tích hình ảnh phức tạp vẫn là những thách thức cần được giải quyết.
Các ứng dụng thực tế và Công cụ dành cho nhà phát triển
QVQ-72B không chỉ là một tạo phẩm nghiên cứu—nó là một công cụ dễ tiếp cận dành cho các nhà phát triển, được lưu trữ trên Ôm mặt Spaces, cho phép người dùng thử nghiệm các khả năng của nó trong thời gian thực. Các nhà phát triển cũng có thể triển khai QVQ-72B cục bộ bằng cách sử dụng các khung như MLX, được tối ưu hóa cho môi trường macOS và Hugging Face Transformers, giúp mô hình trở nên linh hoạt trên nhiều nền tảng.
Chúng tôi đã thử nghiệm QVQ-72B Preview trên Ôm mặt bằng một hình ảnh đơn giản mười hai cây bút chì để xem nó sẽ tiếp cận nhiệm vụ như thế nào và liệu nó có thể xác định chính xác các bút chì xếp chồng lên nhau hay không. Thật không may, nó đã thất bại trong nhiệm vụ đơn giản này, chỉ có tám.
Để so sánh, GPT-4o của OpenAI đã cung cấp câu trả lời đúng trực tiếp:
Giải quyết các thách thức và định hướng trong tương lai
Mặc dù QVQ-72B thể hiện sự tiến bộ nhưng nó cũng nêu bật sự phức tạp của việc phát triển AI đa phương thức. Các vấn đề như chuyển đổi ngôn ngữ, ảo giác và vòng lặp lý luận đệ quy minh họa cho những thách thức trong việc phát triển các hệ thống mạnh mẽ, đáng tin cậy. Việc xác định các đối tượng riêng biệt là chìa khóa để tính đúng và suy luận tiếp theo vẫn là một vấn đề đối với mô hình.
Tuy nhiên, mục tiêu dài hạn của Qwen còn vượt ra ngoài QVQ-72B. Nhóm hình dung ra một mô hình thống nhất tích hợp các phương thức bổ sung—kết hợp văn bản, hình ảnh, âm thanh và hơn thế nữa—để tiếp cận trí tuệ nhân tạo tổng hợp. Họ nhấn mạnh rằng QVQ-72B là một bước tiến tới tầm nhìn này, cung cấp nền tảng mở để khám phá và đổi mới hơn nữa.