Alibaba khổng lồ công nghệ Trung Quốc Alibaba đã leo thang cuộc đua tạo hình ảnh AI, phát hành một mô hình nguồn mở mới mạnh mẽ vào ngày 4 tháng 8 vượt trội so với một trong những thách thức khó khăn nhất đối với AI Hình ảnh. Nó nhằm mục đích cung cấp cho các nhà phát triển một sự thay thế mạnh mẽ, mạnh mẽ, tích hợp liền mạch văn bản phức tạp với sáng tạo trực quan, một rào cản lâu dài cho các mô hình thế hệ. Hình ảnh
Tại cốt lõi của nó, Để giải thích các lời nhắc của người dùng phức tạp, nó tận dụng mô hình ngôn ngữ tầm nhìn QWEN2.5-VL đóng băng làm trình mã hóa điều kiện của nó, một lựa chọn thiết kế tận dụng một mô hình đã rất giỏi trong việc sắp xếp ngôn ngữ và dữ liệu trực quan. Mô hình đã được đào tạo bằng cách sử dụng phương pháp học tập giảng dạy”, bắt đầu bằng kết xuất không có văn bản cơ bản trước khi tăng dần để xử lý các mô tả cấp độ phức tạp, cấp độ. Để cải thiện hơn nữa việc xử lý các ký tự hiếm và phông chữ đa dạng, nhóm nghiên cứu đã phát triển một đường ống tổng hợp dữ liệu nhiều giai đoạn để tạo ra các hình ảnh đào tạo giàu văn bản, chất lượng cao. Để tạo ra một sự thay đổi, hệ thống xử lý hình ảnh đầu vào theo hai cách: QWEN2.5-VL trích xuất các tính năng ngữ nghĩa cấp cao, trong khi một bộ điều chỉnh tự động (VAE) biến thể thu được các chi tiết tái tạo cấp thấp, như chi tiết trong Báo cáo kỹ thuật chính thức . Bản thân VAE đã được điều chỉnh đặc biệt trên một kho tài liệu nặng về văn bản như PDF và áp phích để mài giũa việc xây dựng lại các chi tiết tốt và văn bản nhỏ. Nó vượt trội so với các đánh giá tập trung vào văn bản như băng ghế dài và điểm chuẩn của Trung Quốc mới, vượt trội so với các mô hình hiện có bởi những gì người tạo của nó gọi là một biên độ đáng kể của người Hồi giáo”. Hiệu suất này định vị nó là một người thách thức nguồn mở mạnh mẽ đối với các hệ thống độc quyền hàng đầu. Mô hình thể hiện hiệu suất đánh giá chéo mạnh mẽ, hỗ trợ một loạt các phong cách nghệ thuật. Như được giới thiệu trong Thông báo chính thức , nó có thể thích nghi với các thiết kế của nó. Cho phép các hoạt động nâng cao vượt xa các điều chỉnh đơn giản. Báo cáo kỹ thuật cho thấy mô hình xử lý việc chuyển kiểu, chèn hoặc loại bỏ đối tượng và thậm chí là thao tác tư thế phức tạp của con người. Trong các so sánh định tính, bản đồ QWEN-Image bảo tồn thành công các chi tiết tốt như các sợi tóc trong quá trình thay đổi và chi tiết quần áo chính xác bị che khuất trước đây, thể hiện sự hiểu biết tinh vi về bối cảnh. Nhóm Qwen chứng minh rằng mô hình có thể thực hiện một bộ các tác vụ hiểu hình ảnh thông qua các lời nhắc chỉnh sửa đơn giản. Chúng bao gồm phát hiện đối tượng, phân đoạn ngữ nghĩa, ước tính độ sâu và cạnh (canny) và tổng hợp xem mới. Bằng cách đóng khung các nhiệm vụ nhận thức này như là các hình thức chỉnh sửa hình ảnh thông minh, Alibaba đang thu hẹp khoảng cách giữa AI và AI tạo ra nó một cách hiệu quả. Đây là động thái mới nhất trong một loạt các bản phát hành AI chính nhanh từ Alibaba, báo hiệu một chiến lược toàn diện để xây dựng một bộ công cụ mở đầy đủ cho các nhà phát triển và thống trị hệ sinh thái nguồn mở. Điều này được đi kèm với một mô hình mã hóa tác nhân mạnh mẽ, QWEN3-CODER. Một phát ngôn viên cho biết, sau khi thảo luận với cộng đồng và phản ánh về vấn đề này, chúng tôi đã quyết định từ bỏ chế độ tư duy lai. Bây giờ chúng tôi sẽ đào tạo các mô hình hướng dẫn và tư duy riêng biệt để đạt được chất lượng tốt nhất có thể”, hãy làm rõ tập trung mới về các hệ thống mở rộng. Bản phát hành đó đã giới thiệu một kiến trúc hỗn hợp tiên tiến (MOE) để cải thiện chất lượng và hiệu quả của video. Chỉ vài tuần trước, một nghiên cứu đã cáo buộc rằng mô hình QWEN2.5 cũ của Alibaba đã bị lừa”trong một bài kiểm tra toán học quan trọng bằng cách ghi nhớ các câu trả lời từ dữ liệu đào tạo bị ô nhiễm. Như chiến lược gia của AI, Nate Jones đã lưu ý, khoảnh khắc chúng tôi đặt sự thống trị của bảng xếp hạng làm mục tiêu, chúng tôi có nguy cơ tạo ra các mô hình vượt trội trong các bài tập tầm thường và cá bơn khi đối mặt với thực tế.”Tình cảm này được lặp lại bởi các chuyên gia như Sara Hooker, Trưởng phòng Phòng thí nghiệm Cohere, người lập luận rằng, khi một bảng xếp hạng quan trọng đối với toàn bộ hệ sinh thái, các ưu đãi được liên kết để nó được đặt ra.”href=”https://huggingface.co/qwen/qwen-image”Target=”_ blank”> Tiện ích trong thế giới thực và đổi mới mở . Nó leo thang cạnh tranh và phản ánh đặt cược rằng một hệ sinh thái mở sẽ thúc đẩy sự đổi mới nhanh hơn và áp dụng rộng hơn.