Một phiên bản mới của DALL-E, công nghệ AI tổng hợp có thể tạo hình ảnh từ các mô tả văn bản, đã bị rò rỉ trực tuyến. DALL-E 3 vẫn đang trong quá trình phát triển, nhưng phiên bản bị rò rỉ cho thấy nó có một số tính năng mới có thể khiến nó thậm chí còn mạnh hơn người tiền nhiệm. Bộ giải mã báo cáo rò rỉ đến từ một email OpenAI nội bộ được đăng trên Discord.
Một trong những tính năng mới đáng chú ý nhất trong DALL-E 3 là khả năng tạo hình ảnh từ các mô tả văn bản phức tạp hơn. Ví dụ: giờ đây, người dùng có thể yêu cầu DALL-E tạo hình ảnh mô tả các cảnh cụ thể từ phim hoặc sách hoặc kết hợp nhiều đối tượng hoặc khái niệm khác nhau.
Một tính năng mới khác trong DALL-E 3 là khả năng kiểm soát phong cách của các hình ảnh được tạo ra. Giờ đây, người dùng có thể chỉ định phong cách nghệ thuật mà họ muốn DALL-E sử dụng, chẳng hạn như trường phái ấn tượng, trường phái lập thể hoặc nghệ thuật đại chúng. Điều này có thể giúp người dùng tạo hình ảnh phù hợp với nhu cầu hoặc sở thích cụ thể của họ dễ dàng hơn.
Phiên bản bị rò rỉ của DALL-E 3 vẫn đang được phát triển nên vẫn chưa rõ khi nào nó sẽ được phát hành ra công chúng. Tuy nhiên, các tính năng mới đã được tiết lộ cho đến nay cho thấy rằng DALL-E 3 có thể là một công cụ mạnh mẽ cho các nghệ sĩ, nhà thiết kế và các chuyên gia sáng tạo.
Ngoài các tính năng văn bản mới, phiên bản bị rò rỉ của DALL-E 3 cũng bao gồm một số cải tiến khác, chẳng hạn như khả năng tạo hình ảnh có độ phân giải cao hơn và hỗ trợ nhiều ngôn ngữ hơn. Những cải tiến này có thể làm cho DALL-E 3 trở nên linh hoạt và hữu ích hơn so với người tiền nhiệm của nó.
Tạo hình ảnh AI từ DALL-E
Tuy nhiên, điều quan trọng là phải lưu ý rằng phiên bản bị rò rỉ không phải là sản phẩm cuối cùng. Có thể một số tính năng đã được tiết lộ có thể không được bao gồm trong phiên bản cuối cùng của DALL-E 3. Tuy nhiên, rò rỉ cung cấp một cái nhìn thoáng qua về những gì sẽ đến từ DALL-E 3. Nếu phiên bản cuối cùng của công nghệ tồn tại cho đến khi cường điệu hóa, nó có thể có tác động lớn đến cách chúng ta tạo và sử dụng hình ảnh.
DALL-E dựa trên một mạng thần kinh quy mô lớn đã được đào tạo trên một tập dữ liệu văn bản khổng lồ và các cặp hình ảnh, sử dụng một kỹ thuật gọi là tự chú ý. Mô hình học cách mã hóa ý nghĩa và ngữ cảnh của lời nhắc văn bản, sau đó giải mã nó thành một hình ảnh tương ứng. Mô hình cũng có thể sử dụng thông tin bổ sung, chẳng hạn như tọa độ địa lý hoặc mã màu, để tinh chỉnh quy trình tạo hình ảnh.
Một trong những thách thức chính của việc tạo hình ảnh là đảm bảo rằng các hình ảnh nhất quán và phù hợp với lời nhắc văn bản, cũng như thực tế và đa dạng. DALL-E giải quyết những thách thức này bằng cách sử dụng một chức năng mất mới giúp cân bằng độ chính xác, tính đa dạng và căn chỉnh ngữ nghĩa của quá trình tái tạo. Hàm mất mát cũng kết hợp một thành phần học tập tương phản khuyến khích mô hình tạo ra các hình ảnh khác biệt với các hình ảnh khác trong tập dữ liệu.
DALL-E do OpenAI và Microsoft đồng phát triển. Redmond đã cung cấp một siêu máy tính hỗ trợ Azure để tạo AI. Đây cũng chính là hệ thống máy tính đã xây dựng công cụ GPT AI, hiện đã lên đến GPT-4 và cung cấp năng lượng cho các dịch vụ như Bing Chat và Microsoft 365 Copilot. Tại Ignite 2022, Microsoft đã công bố tích hợp lớn cho DALL∙E 2 trong Dịch vụ Azure DevOps và phát hành ứng dụng Microsoft Designer dành cho Windows 11, ứng dụng này tận dụng AI. Vào tháng 3, Microsoft đã ra mắt Bing Image Creator, công cụ này bổ sung trực tiếp các khả năng của DALL-E/Microsoft Designer vào Bing.
Theo kịp thị trường cạnh tranh
OpenAI đang cạnh tranh với một số công ty Công nghệ lớn trong lĩnh vực AI tạo hình ảnh. Một số công ty và tổ chức đã phát triển và cải thiện trình tạo hình ảnh AI của riêng họ, sử dụng các kỹ thuật và bộ dữ liệu khác nhau.
Các ví dụ gần đây về AI tạo ra hình ảnh
NVIDIA đã và đang thúc đẩy công nghệ tiên tiến nhất trong nghiên cứu AI tạo ra, với các phương pháp mới để nâng cao tính chân thực và chất lượng của hình ảnh do AI tạo ra. OpenAI, tổ chức nghiên cứu đằng sau DALL-E, cũng đã giới thiệu ShapE, một mô hình tổng quát có thể tạo mô hình 3D từ văn bản, mở ra những khả năng mới cho AI trong việc tạo hình ảnh. Stability AI, một công ty khởi nghiệp tập trung vào AI tổng quát, đã phát hành StableStudio, một ứng dụng web nguồn mở sử dụng mô hình Khuếch tán ổn định của mình để tạo hình ảnh từ lời nhắc văn bản. Người dùng cũng có thể sử dụng các tính năng của DreamStudio để tạo nhiều biến thể của một hình ảnh với các kiểu và thuộc tính khác nhau. Meta, công ty trước đây có tên là Facebook, đã tiết lộ I-JEPA, trình tạo hình ảnh AI của riêng mình dựa trên mô hình máy biến thế chung. I-JEPA có thể tìm hiểu mối liên hệ giữa từ ngữ và hình ảnh, đồng thời tạo ra hình ảnh chân thực từ các mô tả văn bản. Alibaba, gã khổng lồ thương mại điện tử Trung Quốc, đã ra mắt Tongyi Wanxiang, một trình tạo hình ảnh AI tổng hợp có thể xử lý cả ngôn ngữ tiếng Trung và tiếng Anh. Người dùng có thể tùy chỉnh các thông số đầu ra của hình ảnh bằng Composer, một mô hình lớn được phát triển bởi Alibaba Cloud.