Microsoft đã khôi phục bản cập nhật mới nhất của mình cho Bing Image Creator, quay lại phiên bản mẫu DALL-E trước đó sau khi có nhiều khiếu nại của người dùng về chất lượng hình ảnh bị giảm.
Bản cập nhật tháng 12 năm 2024 đã giới thiệu PR16, một phiên bản mới của DALL-E 3 của OpenAI, với hứa hẹn về khả năng hiển thị nhanh hơn và cải thiện độ trung thực của hình ảnh. Tuy nhiên, phản hồi của người dùng đã tiết lộ những sai sót đáng kể trong kết quả đầu ra của mô hình, khiến Microsoft phải khôi phục mô hình PR13 trước đó trong khi điều tra các vấn đề.
Về cốt lõi, DALL-E 3 là mô hình tạo hình ảnh tiên tiến có khả năng tạo hình ảnh từ các mô tả văn bản chi tiết. Việc Microsoft tích hợp DALL-E 3 vào Bing Image Creator cho phép người dùng tạo hình ảnh tùy chỉnh trực tiếp trong giao diện tìm kiếm Bing. Hệ thống này cũng bao gồm các tính năng như”tăng tốc”, ưu tiên các yêu cầu cụ thể của người dùng để xử lý nhanh hơn.
Liên quan: XAI của Elon Musk trình diễn trình tạo hình ảnh Aurora AI mạnh mẽ
PR16: Một bản cập nhật đầy hứa hẹn nhưng không đạt được mục tiêu
Khi Microsoft tích hợp PR16 vào Bing Image Creator, nó nhấn mạnh đến các cải tiến về tốc độ và hình ảnh, Jordi Ribas, Phó chủ tịch phụ trách Tìm kiếm và AI của Microsoft, giải thích: “Đã tìm thấy điểm chuẩn nội bộ. Chất lượng của PR16 trung bình tốt hơn một chút”so với PR13. Bản cập nhật này là một phần trong nỗ lực của Microsoft nhằm cải thiện hệ sinh thái AI bằng cách tích hợp các khả năng nâng cao từ DALL-E 3 của OpenAI.
Bất chấp những tuyên bố này, trải nghiệm của người dùng khác biệt đáng kể so với những đảm bảo của Microsoft. Trên các nền tảng như Reddit và X (trước đây là Twitter), người dùng mô tả hình ảnh do PR16 tạo ra là “vô hồn”, “hoạt hình” và thiếu chi tiết.
Tôi không biết bạn nghĩ bạn đang đùa ai với điều này. Về mặt khách quan, DALL-E trở nên tồi tệ hơn bao giờ hết sau”bản cập nhật”này và bạn đang bị các công ty khác như Google vượt mặt. Hoàn toàn không thể so sánh chất lượng hình ảnh bây giờ với chỉ vài tháng trước pic.twitter.com/EdSdk7aign
— hướng ngoại (@ roccynoxy) Ngày 19 tháng 12 năm 2024
Các khiếu nại cụ thể bao gồm hình ảnh quá sáng, họa tiết đặt sai vị trí, và tông màu không tự nhiên, chẳng hạn như màu xanh lá cây lan tỏa. Một Người dùng Reddit đã mô tả sự thất vọng của họ bằng cách nói rằng mô hình này không còn phù hợp với trải nghiệm của họ nữa. trước đây rất thích với DALL-E.
Các vấn đề về yếu tố hình ảnh phức tạp, chẳng hạn như họa tiết ren và quần áo nhiều lớp, đặc biệt rõ ràng. Người dùng đã cố gắng tạo ra một nhân vật theo phong cách anime nhấn mạnh rằng PR16 hiển thị hình ảnh với chất lượng thấp hơn nhiều bằng cách sử dụng cùng một lời nhắc.
Những thách thức về kết xuất rộng hơn với DALL-E 3
Trong khi Microsoft phải đối mặt với những lời chỉ trích đáng kể về việc triển khai PR16, các vấn đề không chỉ xảy ra với Bing Image Creator. Kể từ tháng 11 năm 2024, người dùng tích hợp ChatGPT của OpenAI với DALL-E 3 đã báo cáo các lỗi kết xuất tương tự, bao gồm biến dạng màu sắc, sai lệch kết cấu và bất thường về ánh sáng.
Quan sát từ diễn đàn cộng đồng OpenAI tiết lộ rằng những vấn đề này không bắt nguồn từ chính mô hình DALL-E 3 mà bắt nguồn từ các hệ thống trung gian chịu trách nhiệm chuyển lời nhắc của người dùng thành hướng dẫn hiển thị.
Có liên quan: Trình tạo hình ảnh AI Imagen 3 của Google hiện có sẵn ở Hoa Kỳ
Theo phân tích chi tiết trên diễn đàn, các vấn đề có thể xuất phát từ lỗi trong việc phân tích cú pháp và lệnh nhanh chóng đường ống. Hệ thống dịch lời nhắc trong DALL-E PR16 dường như đưa ra những thông tin mơ hồ dẫn đến kết quả đầu ra không nhất quán.
Ví dụ: lời nhắc liên quan đến các kiểu quần áo phức tạp, chẳng hạn như váy Rococo hoặc thiết kế Gothic Gothic, thường dẫn đến các mẫu đặt sai vị trí, kết cấu không chính xác và sai lệch về phong cách.
Điều thú vị là những vấn đề này không phổ biến. Các nền tảng như Coze.com, sử dụng quy trình tích hợp thay thế cho DALL-E 3, phần lớn đã tránh được các lỗi hiển thị được quan sát thấy trong Bing Image Creator và ChatGPT. Sự khác biệt này cho thấy vấn đề nằm ở các hệ thống trung gian cụ thể được OpenAI và Microsoft sử dụng, chứ không phải ở mô hình AI cốt lõi.
Liên quan: Freepik Mystic Takes on Midjourney, Dall-E in Tạo hình ảnh AI
Phản hồi và khôi phục của Microsoft
Xác nhận phản hồi của người dùng, Microsoft đã bắt đầu khôi phục PR13. Ribas đã công bố quyết định về X, nêu rõ: “Một lần nữa xin cảm ơn vì phản hồi và sự kiên nhẫn. Chúng tôi đã có thể [tái tạo] một số vấn đề được báo cáo và có kế hoạch hoàn nguyên về PR13 cho đến khi chúng tôi có thể khắc phục chúng. Thật không may, quá trình triển khai rất chậm. Quá trình này đã bắt đầu từ hơn một tuần trước và sẽ mất thêm 2-3 tuần nữa để đạt 100%.”
Quá trình khôi phục đã hoàn tất một phần, với người dùng Pro và khoảng 25% yêu cầu được tăng cường hiện đang sử dụng PR13. sự đảo ngược dần dần phản ánh sự phức tạp của việc cập nhật các hệ thống AI quy mô lớn, đặc biệt là khi giải quyết các quy trình tích hợp sâu như quy trình trong Bing Image Creator.
Ý nghĩa rộng hơn đối với việc triển khai AI
Việc Microsoft gặp khó khăn với PR16 tương tự những thách thức mà những gã khổng lồ công nghệ khác phải đối mặt trong việc triển khai các mô hình AI tiên tiến. Ví dụ: trước đó vào năm 2024, Google đã phải tạm dừng các tính năng tạo hình ảnh của chatbot Gemini sau khi công cụ này tạo ra kết quả mang tính xúc phạm chủng tộc và không chính xác về mặt lịch sử.
Những sự cố này nêu bật những khó khăn cố hữu trong việc điều chỉnh các tiến bộ của AI cho phù hợp với kỳ vọng của người dùng, đặc biệt đối với các ứng dụng sáng tạo như tạo hình ảnh.
Các hệ thống AI như DALL-E 3 dựa vào nhiều lớp xử lý để diễn giải và thực hiện lời nhắc của người dùng. Mặc dù khả năng của mô hình cốt lõi vẫn mạnh mẽ nhưng những sai sót trong các hệ thống trung gian có thể làm giảm đáng kể hiệu suất. Trường hợp này minh họa rằng ngay cả những sai lệch nhỏ trong quy trình phân tích cú pháp hoặc kết xuất nhanh chóng cũng có thể khiến người dùng không hài lòng đáng kể.
Tuy nhiên, việc triển khai PR16 đã bộc lộ những thách thức mang tính hệ thống trong việc duy trì tính nhất quán. Các vấn đề như sai vị trí kết cấu, vấn đề về độ trung thực của màu sắc và ánh sáng các hiện vật làm nổi bật sự cân bằng tinh tế giữa việc nâng cao tốc độ và đảm bảo độ chính xác trong kết xuất. Những thách thức này càng trở nên trầm trọng hơn do lời nhắc của người dùng ngày càng phức tạp, thường kết hợp các mô tả nội dung và phong cách phức tạp.
Trong khi việc đo điểm chuẩn cung cấp những hiểu biết sâu sắc có giá trị về hiệu suất kỹ thuật, thì các ứng dụng trong thế giới thực thường bộc lộ những vấn đề mà thử nghiệm nội bộ không thể dự đoán được.
Hơn nữa, sự khác biệt giữa các nền tảng như Coze.com và Bing Image Creator cho thấy rằng việc tinh chỉnh các hệ thống trung gian là rất quan trọng để cải thiện hiệu suất tổng thể.
Việc giải quyết những thách thức này đòi hỏi nhiều nỗ lực hợp tác hơn giữa các nhà phát triển, nhà tích hợp nền tảng và người dùng cuối để đảm bảo rằng hệ thống AI đáp ứng cả kỳ vọng về mặt kỹ thuật và thẩm mỹ.