Alibaba đã phát hành Qwen3, một gia đình mới gồm các mô hình ngôn ngữ lớn nhằm cạnh tranh với các dịch vụ AI hàng đầu từ Openai và Google thông qua các tính năng đặc biệt như chế độ suy nghĩ lai”và hỗ trợ đa ngôn ngữ. Trong một động thái phù hợp với các bản phát hành nguồn mở trước đó như WAN 2.1, gã khổng lồ công nghệ Trung Quốc đã thực hiện hầu hết các mô hình trong loạt QWEN3 có sẵn theo giấy phép Apache 2.0 thông qua các nền tảng bao gồm ôm mặt , github , Alibaba từ ModelsCope Phương pháp hoạt động kép của nó. Chế độ tư duy mặc định”cho phép các mô hình thực hiện lý luận từng bước cho các tác vụ phức tạp như toán học hoặc mã hóa, thường xuất ra các bước trung gian này trong các thẻ trước khi trả lời cuối cùng. Các nhà phát triển có thể chuyển đổi hành vi này bằng tham số enable_thinking hoặc các thẻ cụ thể/suy nghĩ và/no_think trong các lời nhắc. QWen Team Thông báo Đổi lại tính linh hoạt này: Chiều cao=”576″src=”Dữ liệu: Image/SVG+XML; Yiihdpzhropsixmdi0iibozwlnahq9iju3niigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Tài liệu thực tiễn tốt nhất trên

Đào tạo, kiến ​​trúc và sử dụng

Các mô hình được đào tạo trước trên một bộ dữ liệu được báo cáo là khoảng 36 nghìn tỷ mã thông báo, kết hợp văn bản web, mã, trích xuất văn bản từ PDFS (sử dụng QWEN2.5-VL) và dữ liệu tổng hợp được tạo ra thông qua các mô hình QW và dữ liệu tổng hợp. Quá trình sau đào tạo liên quan đến bốn giai đoạn, bao gồm cả việc học củng cố và các bước cụ thể để hợp nhất các khả năng tư duy và không suy nghĩ. Đối với các tác vụ tác nhân, QWEN3 hỗ trợ giao thức bối cảnh mô hình (MCP), với Alibaba đề xuất Các khung triển khai như SGLANG và VLLM, hoặc các công cụ địa phương như Ollama và Lmstudio. A fp8-đủ điều kiện là mô hình 0,6b được cung cấp cho hiệu quả, mặc dù có thể cần điều chỉnh tiềm năng cho một số khung như VLL. Alibaba cũng đã làm rõ sơ đồ đặt tên mới của mình, loại bỏ các mô hình-instruction”khỏi các mô hình được đào tạo sau và thêm cơ sở”vào các mô hình cơ sở.

qwen3 đi vào cảnh quan AI động. Alibaba tuyên bố gia đình Qwen tạo thành hệ sinh thái AI nguồn mở lớn nhất thế giới bởi các mô hình phái sinh, trích dẫn hơn 100.000 trên khuôn mặt ôm. Qwen3 đã được tích hợp vào Alibaba, Quark AI Assistant, đã dẫn đến các chatbot của Trung Quốc ở người dùng hoạt động hàng tháng vào tháng 3 năm 2025. Bản phát hành theo sau Alibaba trước đó Thị trường AI trong nước cạnh tranh. Deepseek AI đã tạo ra những làn sóng đáng kể với Deepseek V3 hiệu quả (tháng 12 năm 2024) và mô hình lý luận mạnh mẽ của Deepseek R1 (tháng 1 năm 2025). Tuy nhiên, Deepseek đã phải đối mặt với sự giám sát quốc tế đáng kể, bao gồm các cuộc điều tra quyền riêng tư dữ liệu ở Ý, một đánh giá nội bộ của Microsoft và Openai về việc truy cập dữ liệu không chính xác và một href=”https://selectcommitteeontheccp.house.gov/media/press-releases/moolenaar-krishnamoorthi-unveil-explosive và trộm cắp IP. Gần đây, Deepseek đã chuyển sang cơ sở hạ tầng nguồn mở như hệ thống tệp 3FS và nghiên cứu như điều chỉnh phê bình tự chủ (SPCT), trong khi những người chơi khác sử dụng dữ liệu nguồn mở của DeepSeek. Baidu gần đây đã leo thang cuộc chiến giá với các mẫu Ernie Turbo (ngày 25 tháng 4 năm 2025), cung cấp giảm chi phí đáng kể sau khi ra mắt các mẫu Ernie 4.5 và X1 có khả năng vào tháng 3 và làm cho Ernie bot miễn phí vào tháng 2. Sử dụng các mô hình Deepseek cho hiệu quả. Trong khi đó, Zhipu AI, được Alibaba ủng hộ, đã phát hành đại lý Autoglm miễn phí (tháng 3 năm 2025) và đang theo đuổi IPO. Alibaba đã tích hợp các mô hình QWEN trước đó vào Trợ lý Quark AI của mình.

Categories: IT Info