Nhóm Qwen của Alibaba đã ra mắt Qwen3-VL, loạt mô hình ngôn ngữ tầm nhìn mạnh mẽ nhất của nó cho đến nay. Kích thước lớn của nó (471 GB) làm cho nó trở thành một công cụ cho các nhóm có nguồn lực tốt. src=”Dữ liệu: Image/SVG+XML; Aiihdpzhropsixmjgwiibozwlnahq9ijcymcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
Chúng bao gồm hoạt động như một tác nhân trực quan của người Viking”để kiểm soát các ứng dụng và hiểu các video kéo dài hàng giờ. Bản phát hành là một động thái quan trọng trong chiến lược Alibaba, để dẫn đầu trường AI nguồn mở. Các ngăn xếp độc quyền của các đối thủ phương Tây của nó.
Nhóm Qwen tuyên bố hiệu suất của nó là hiện đại. Phiên bản hướng dẫn phù hợp hoặc thậm chí vượt quá Gemini 2.5 Pro trong các điểm chuẩn nhận thức trực quan chính. Phiên bản suy nghĩ đạt được kết quả tiên tiến trên nhiều điểm chuẩn lý luận đa phương thức”, nhóm nghiên cứu đã tuyên bố trong thông báo của mình. href=”https://qwen.ai/blog?id=99F0335C4AD9FF6153E517418D48535AB Tính năng này vượt ra ngoài nhận dạng hình ảnh đơn giản, cho phép mô hình vận hành giao diện người dùng đồ họa máy tính và di động (GUI). Các ứng dụng tiềm năng bao gồm từ tự động hóa các tác vụ phần mềm lặp đi lặp lại và hỗ trợ người dùng các quy trình công việc phức tạp tạo ra các công cụ truy cập trực quan hơn để điều hướng các ứng dụng. Nó tự nhiên hỗ trợ 256.000 mã thông báo, có thể mở rộng lên tới một triệu. Các khả năng mới được cung cấp bởi một cuộc đại tu kiến trúc quan trọng được thiết kế để đẩy ranh giới của sự hiểu biết trực quan và thời gian. Giấy . Điều này thay thế phương pháp trước đó nơi thông tin thời gian tập trung theo kích thước tần số cao. Kỹ thuật mới phân phối dữ liệu thời gian, chiều cao và chiều rộng trên tất cả các tần số, cải thiện đáng kể khả năng hiểu quay dài trong khi duy trì sự hiểu biết hình ảnh. Thay vì tiêm các mã thông báo trực quan vào một lớp duy nhất của mô hình ngôn ngữ, Deepstack tiêm chúng qua nhiều lớp. Điều này cho phép sự hợp nhất chi tiết của các tính năng đa cấp từ máy biến áp tầm nhìn (VIT), làm sắc nét độ chính xác của mô hình hình ảnh văn bản. Hệ thống này sử dụng định dạng đầu vào xen kẽ của dấu thời gian và khung video, cho phép căn chỉnh cấp độ khung chính xác giữa dữ liệu thời gian và nội dung trực quan. Điều này thực sự tăng cường khả năng mô hình của bạn trong việc bản địa hóa các sự kiện và hành động trong các chuỗi video phức tạp. src=”Dữ liệu: Image/SVG+XML; B3AWR0AD0IMTI4MCIGAGVPZ2H0PSIXOTEXIIB4BWXUCZ0IHR0CDOVL3D3DY53MY5VCMCVMJAWMC9ZDMCIPJWVC3ZNPG==”>
Bản phát hành này là bản mới nhất trong cuộc tấn công AI nhanh chóng và có chủ ý từ Alibaba. Công ty gần đây đã ra mắt các mô hình nguồn mở mạnh mẽ để tạo ra lý luận và tạo hình ảnh có độ trung thực cao. Động thái này cũng củng cố một trụ cột chiến lược ra khỏi chế độ tư duy lai của các mô hình trước đó, đòi hỏi các nhà phát triển phải chuyển đổi giữa các chế độ. Gambit nguồn mở trong một lĩnh vực chuyên môn
qwen3-VL bước vào một trường cạnh tranh ngày càng xoay quanh thang đo nguyên khối là tất cả những gì bạn cần. Sự thống trị phổ quát. Lĩnh vực này đang đa dạng hóa nhanh chóng, với các mô hình như Microsoft, Florence-2 cũng theo đuổi cách tiếp cận dựa trên sự thống nhất, dựa trên kịp thời để xử lý nhiều tác vụ tầm nhìn như chú thích và phát hiện đối tượng trong một kiến trúc gắn kết, duy nhất. Mô hình nhẹ này được tối ưu hóa để phát hiện đối tượng trên các thiết bị cạnh, ưu tiên độ trễ thấp và khả năng đáp ứng so với lý luận diễn giải của các hệ thống lớn hơn. Chẳng hạn, tầm nhìn của Cohere, là một mô hình trọng lượng mở được thiết kế đặc biệt để thúc đẩy nghiên cứu AI đa ngôn ngữ và đa phương thức, nhấn mạnh tập trung vào việc trao quyền cho các dự án tập trung vào học thuật và tiếp cận. Các nhà nghiên cứu gần đây đã tiết lộ mạng lưới thần kinh toàn diện (All-TNN), một mô hình bắt chước cấu trúc não người của con người đối với hiệu quả năng lượng vượt trội. dữ liệu. Coauthor Zejin Lu đã giải thích khái niệm này: Đối với con người, khi bạn phát hiện một số vật thể, chúng có một vị trí điển hình. Bạn đã biết đôi giày thường ở phía dưới, trên mặt đất. Máy bay, nó ở trên đỉnh. href=”https://en.wikipedia.org/wiki/convolutional_neural_network”Target=”_ Blank”> Mạng thần kinh tích chập (CNN) . Điều này làm cho nó trở thành một sự thay thế hấp dẫn cho các thiết bị cạnh công suất thấp trong đó hiệu quả là tối quan trọng, chứng minh rằng thiết kế thanh lịch có thể hiệu quả hơn so với tính toán vũ lực.