Mô hình lý luận QWEN3 mới của Alibaba Tops Tops Openai và Google Điểm chuẩn trong bản phát hành nguồn mở lớn

Tuần này, nhóm Alibaba, Qwen đã phát hành một mô hình lý luận nguồn mở hàng đầu mới đang làm rung chuyển ngành công nghiệp AI. Được công bố vào ngày 25 tháng 7, mô hình QWEN3-235B-A22B-INVED-2507 đã đứng đầu các tiêu chuẩn chính của ngành, vượt trội so với các hệ thống độc quyền mạnh mẽ từ các đối thủ như Google và Openai. Nó đang từ bỏ cách tiếp cận tư duy lai trước”của mình”để đào tạo các mô hình chuyên dụng, riêng biệt cho lý luận phức tạp và theo hướng dẫn nhanh chóng. Động thái này nhằm mục đích cung cấp chất lượng cao hơn và cung cấp cho các nhà phát triển các công cụ AI hiện đại. hệ thống. Hiệu suất của nó không bị giới hạn trong một hốc duy nhất; Thay vào đó, nó thể hiện khả năng toàn diện và mạnh mẽ trong lý luận, mã hóa và liên kết người dùng phức tạp, thiết lập một tiêu chuẩn mới cho những gì AI nguồn mở có thể đạt được. src=”Dữ liệu: Image/SVG+XML; Aiihdpzhropsixmjgwiibozwlnahq9ijcymcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Trong lĩnh vực lý luận toán học và logic tiên tiến, mô hình đã được chứng minh là có khả năng đặc biệt. Trên điểm chuẩn AIME25, một bài kiểm tra được thiết kế để đánh giá các kỹ năng giải quyết vấn đề tinh vi, nhiều bước, QWEN3-suy nghĩ-2507 đạt được số điểm đáng chú ý là 92.3. Điều này đặt nó trước một số mô hình độc quyền mạnh mẽ nhất, đáng chú ý là vượt qua Google Google GeminiMi-2.5 Pro, đã đăng điểm 88.0 trên cùng một đánh giá. Khi được kiểm tra trên LiveCodeBench V6, một điểm chuẩn đánh giá khả năng AI AI để xử lý các tác vụ mã hóa trong thế giới thực, tư duy QWEN3 đã đảm bảo điểm cao nhất là 74,1. Hiệu suất này đặt nó một cách thoải mái trước cả GEMINI-2.5 Pro (72,5) và OpenaiTHER O4-Mini (71.8), thể hiện tiện ích thực tế của nó cho các nhà phát triển và nhóm kỹ thuật. Nó chiếm vị trí hàng đầu trên điểm chuẩn V2-Hard V2, đo lường mô hình người dùng nào thích so sánh trực tiếp. Điểm số hàng đầu này là 79,7 cho thấy không chỉ kỹ năng kỹ thuật mạnh mẽ mà còn có mức độ hữu ích, sự gắn kết và an toàn cao trong các phản hồi được tạo của nó. Lý luận

Bản phát hành mang tính bước ngoặt này thể hiện một trục chiến lược chính cho bộ phận AI của Alibaba, báo hiệu một sự tiến hóa có chủ ý và được xem xét cẩn thận trong triết lý phát triển của nó. Công ty tuyên bố chính thức từ bỏ chế độ suy nghĩ lai”, đó là một tính năng cốt lõi của các mẫu QWEN3 trước đó. Cách tiếp cận ban đầu đó yêu cầu các nhà phát triển chuyển đổi thủ công giữa các chế độ hướng dẫn và lý luận sâu nhanh bằng cách sử dụng mã thông báo đặc biệt, một hệ thống có thể giới thiệu sự phức tạp và không nhất quán. Trong một tuyên bố chính thức, Có sẵn theo giấy phép Apache 2.0 Điều này cho phép các tổ chức tải xuống tự do, sửa đổi và triển khai mô hình. Nó cung cấp cho các doanh nghiệp toàn quyền kiểm soát quyền riêng tư, bảo mật, chi phí và độ trễ của họ, giải quyết các mối quan tâm chính cho các doanh nghiệp hoạt động trong các ngành công nghiệp được quy định hoặc với thông tin nhạy cảm. Truy cập mô hình thông qua các nền tảng như OpenRouter . Đó là Tương thích với các khung tác nhân như Qwen-Agent Kính

Mô hình tư duy QWEN3 là mô hình mới nhất liên tiếp nhanh chóng các bản phát hành từ Alibaba. Nhóm QWEN gần đây cũng đã ra mắt một mô hình mã hóa 480B lớn mới và một mô hình dịch đa ngôn ngữ, xây dựng một hệ sinh thái AI nguồn mở toàn diện. Chiến lược này dường như là một trong việc cung cấp một bộ công cụ mở, mạnh mẽ cho các nhà phát triển.

Thời gian của bản phát hành này rõ ràng là chiến lược. Nó đến chỉ một ngày trước khi Alibaba xem trước Kính thông minh mới của Quark AI”tại Hội nghị Trí tuệ nhân tạo thế giới ở Thượng Hải. Kính được cung cấp bởi loạt QWEN3 mới, một động thái được thiết kế để giới thiệu ứng dụng trong thế giới thực của AI mạnh mẽ của nó. Bằng cách chứng minh các khả năng AI đẳng cấp thế giới của nó ngay trước khi tiết lộ phần cứng, Alibaba đã thực hiện một chương trình của người Viking, hãy nói với”Chiến lược xây dựng niềm tin thị trường.

Mô hình lý luận QWEN3 mới của Alibaba Tops Tops Openai và Google Điểm chuẩn trong bản phát hành nguồn mở lớn

Published by All Things Windows on July 27, 2025

IT Info

GitHub phát hành công cụ Spark có thể xây dựng các ứng dụng đầy đủ từ một lời nhắc duy nhất

IT Info

Meta tiết lộ dây đeo cổ tay để kiểm soát cử chỉ, chuyển các chuyển động cơ bắp thành các lệnh

IT Info

Microsoft tuyên bố Windows 11 24H2 Các vấn đề về tường lửa BSOD & Windows đã được khắc phục

Mô hình lý luận QWEN3 mới của Alibaba Tops Tops Openai và Google Điểm chuẩn trong bản phát hành nguồn mở lớn

Published by All Things Windows on July 27, 2025

Related Posts

IT Info

GitHub phát hành công cụ Spark có thể xây dựng các ứng dụng đầy đủ từ một lời nhắc duy nhất

IT Info

Meta tiết lộ dây đeo cổ tay để kiểm soát cử chỉ, chuyển các chuyển động cơ bắp thành các lệnh

IT Info

Microsoft tuyên bố Windows 11 24H2 Các vấn đề về tường lửa BSOD & Windows đã được khắc phục