Black Forest Labs và Alibaba đang thách thức các đương nhiệm của AI với các mô hình hình ảnh chuyên biệt. Vào ngày 31 tháng 7, BFL và Krea AI đã phát hành Flux.1 Krea, nhắm mục tiêu chủ nghĩa quang học để tránh cái nhìn chung chung.”Hôm nay, nhóm Alibaba từ Qwen đã ra mắt Qwen-Image, một mô hình xuất sắc trong kết xuất văn bản phức tạp. href=”https://huggingface.co/qwen/qwen-image”Target=”_ Blank”> Các nhà phát triển . Các bản phát hành của họ báo hiệu một sự thay đổi chiến lược trong thị trường AI thế hệ, trong đó các khả năng thích hợp đang được ưu tiên để giải quyết các vấn đề sáng tạo cụ thể và thách thức sự thống trị của các công cụ đa năng. Phê bình về nghệ thuật AI: Xu hướng của nó đối với kết cấu quá bão hòa, trông nhân tạo. Mô hình tham số 12 tỷ mới của họ, flux.1 Krea, được mô tả là một công cụ”được thiết kế đặc biệt để đạt được một chất quang học đặc biệt và xác thực hơn, vượt ra ngoài các đầu ra được xói buộc đã trở thành đồng nghĩa với công nghệ.

Thông báo , là cung cấp một công cụ cung cấp những bất ngờ thú vị dưới dạng hình ảnh đa dạng, trực quan thú vị.”Công ty tuyên bố hiệu suất của mô hình là ngang bằng với các lựa chọn thay thế nguồn đóng trong các đánh giá sở thích của con người và nó được đào tạo bằng cách sử dụng chưng cất hướng dẫn, một kỹ thuật giúp chạy hiệu quả hơn. Khả năng tương thích kiến trúc này là chìa khóa để thúc đẩy việc áp dụng và tùy biến nhanh chóng, xây dựng trên nền tảng của bản phát hành Kontext thông lượng trước đó của BFL. Các nhà phát triển được khuyến khích sử dụng Github Kho lưu trữ như một điểm khởi đầu để tích hợp. Các trọng số mô hình có sẵn trên Hugging Face Theo giấy phép phi thương mại cho nghiên cứu, nghệ thuật và sử dụng cá nhân. Đối với các ứng dụng thương mại, giấy phép có sẵn thông qua Cổng cấp phép Bfl giảm thiểu. BFL lưu ý rằng nó đã lọc dữ liệu trước khi đào tạo cho nội dung NSFW và hợp tác với Tổ chức Watch Internet để loại bỏ tài liệu lạm dụng tình dục trẻ em đã biết. Giấy phép nghiêm cấm sử dụng mô hình cho các mục đích bất hợp pháp hoặc tạo ra nội dung có hại và công ty tuyên bố họ có thể xác minh rằng các nhà triển khai đang sử dụng các bộ lọc an toàn được cung cấp. kết xuất văn bản. Nhóm nghiên cứu đã phát hành Qwen-Image, một mô hình tham số 20 tỷ mạnh mẽ được thiết kế để tạo ra hình ảnh với văn bản khả năng trung thực cao.

Đây là một rào cản kỹ thuật quan trọng. Hầu hết các mô hình khuếch tán đấu tranh để tạo thành các chữ cái và từ mạch lạc, thường tạo ra các ký tự bị cắt xén hoặc vô nghĩa. Tuy nhiên, Qwen-Image có thể hiển thị chính xác văn bản đa dòng trong cả tiếng Anh và tiếng Trung, trực tiếp từ lời nhắc văn bản . Điều này định vị nó là một công cụ mạnh mẽ để tạo nội dung chuyên nghiệp, một miền trong đó độ chính xác là tối quan trọng. Điều này sau khi ra mắt mô hình QWEN VLO tổng quát hơn vào tháng 6, cho thấy mô hình xây dựng các mô hình nền tảng trước khi phát hành các biến thể chuyên dụng. Họ bước vào một đấu trường cạnh tranh khốc liệt, nơi các công ty công nghệ lớn đang nhanh chóng phát triển nền tảng của riêng họ. Google đã ra mắt mô hình Imagen 4 vào tháng 6, cũng tuyên bố kết xuất văn bản được cải thiện đáng kể”là một cải tiến chính. Vào tháng Tư, Adobe đã đại tu nền tảng Firefly của mình để kết hợp các mô hình của bên thứ ba, bao gồm cả công nghệ BFL trước đó. Điều này báo hiệu một sự thay đổi tiềm năng của ngành công nghiệp đối với các trung tâm sáng tạo tích hợp thay vì hệ sinh thái một mô hình đơn.

Cuộc thi cũng đang mở rộng ra ngoài hình ảnh tĩnh. Midjourney gần đây đã ra mắt công cụ video AI đầu tiên của mình. Tốc độ đổi mới không ngừng này gây áp lực liên tục lên tất cả các nhà phát triển để phân biệt.

Alibaba đang nhanh chóng tích hợp các công nghệ này vào các sản phẩm tiêu dùng của mình. Trợ lý Quark AI của nó đang phát triển thành một cửa ngõ để người dùng khám phá mọi thứ AI có thể cung cấp,”theo CEO Wu Jia, biến nó thành một trung tâm cho các dịch vụ AI. Sự tích hợp dọc này là một phần quan trọng trong chiến lược cạnh tranh của nó. Toàn bộ ngành công nghiệp AI đang vật lộn với các tranh chấp bản quyền. Một vụ kiện mang tính bước ngoặt do Disney và Universal chống lại Midjourney đặt câu hỏi về tính hợp pháp của các mô hình đào tạo về nội dung có bản quyền. Như cố vấn chung của Disney, đã nói thẳng thừng, vi phạm bản quyền là vi phạm bản quyền, và thực tế là nó được thực hiện bởi một công ty A.I. không làm cho nó ít vi phạm hơn.”Sự không chắc chắn về mặt pháp lý này tạo ra rủi ro to lớn cho các nhà phát triển và khách hàng doanh nghiệp, làm cho nguồn gốc dữ liệu trở thành một vấn đề quan trọng.

Đối với một công ty như Alibaba, những thách thức này được kết hợp bởi ma sát địa chính trị. Sự cạnh tranh công nghệ giữa Hoa Kỳ và Trung Quốc tạo ra những rào cản cho sự hợp tác quốc tế. Như một nhà phân tích từ Trung tâm Nghiên cứu Chiến lược và Quốc tế đã lưu ý, Hoa Kỳ đang ở trong một cuộc đua AI với Trung Quốc, và chúng tôi chỉ muốn các công ty Mỹ giúp các công ty Trung Quốc chạy nhanh hơn.”Bằng cách cung cấp nguồn mở các mô hình mạnh mẽ, cả BFL và Alibaba đều nhắm đến việc xây dựng các cộng đồng nhà phát triển toàn cầu như một lợi thế chiến lược để chống lại những áp lực này. Mặc dù các mô hình lớn, đa năng vẫn chiếm ưu thế, có một nhu cầu ngày càng tăng đối với các công cụ chuyên dụng vượt trội trong các nhiệm vụ cụ thể. Mặt trận mới này trong cuộc đua AI ít hơn về quy mô và nhiều hơn về độ chính xác.

Categories: IT Info