OpenAI đã cung cấp cái nhìn sơ bộ về DALL·E 3, phiên bản mới nhất của công cụ tạo hình ảnh nổi tiếng của nó. Phiên bản mới này hứa hẹn sẽ cung cấp hình ảnh phù hợp hơn với truy vấn của người dùng, nhấn mạnh khả năng hiểu và diễn giải lời nhắc nâng cao. Thông báo về mẫu máy mới được đưa ra sau khi thông tin về nó gần đây bị rò rỉ trên mạng.

DALL-E là AI tạo hình ảnh được đồng phát triển bởi OpenAI và Microsoft. Redmond đã cung cấp siêu máy tính chạy bằng Azure để tạo ra AI. Đây chính là hệ thống điện toán đã xây dựng công cụ GPT AI, hiện đã nâng cấp lên GPT-4 và hỗ trợ các dịch vụ như Bing Chat và Microsoft 365 Copilot. DALL-E cũng là một phần của AI tạo/tìm kiếm hình ảnh Bing Image Creator của Microsoft.

Các tính năng và cải tiến chính

DALL·E 3 nổi bật nhờ những tiến bộ đáng kể trong việc hiểu được sắc thái của lời nhắc, đặc biệt là những lời nhắc dài hơn. Nó đã cho thấy sự cải thiện rõ rệt so với phiên bản tiền nhiệm DALL·E 2, được giới thiệu vào tháng 4 năm 2022.

Mô hình chuyển văn bản thành hình ảnh mới của chúng tôi, DALL·E 3, có thể chuyển các yêu cầu phức tạp thành hình ảnh cực kỳ chi tiết và chính xác.

Sắp ra mắt sớm có trên ChatGPT Plus & Enterprise, tính năng này có thể giúp bạn tạo ra những lời nhắc thú vị để biến ý tưởng của bạn thành hiện thực:https://t.co/jDXHGNmarT pic.twitter.com/aRWH5giBPL

— OpenAI (@OpenAI) Ngày 20 tháng 9 năm 2023

Một trong những cập nhật lớn là tích hợp với ChatGPT, cho phép người dùng tinh chỉnh yêu cầu hình ảnh của họ thông qua các cuộc trò chuyện tương tác với chatbot. Điều này có nghĩa là người dùng hiện có thể nhận được hình ảnh được tạo trực tiếp trong ứng dụng trò chuyện. OpenAI đã lên lịch phát hành DALL·E 3 cho ChatGPT Plus và khách hàng doanh nghiệp vào tháng 10, với kế hoạch phát hành rộng rãi hơn cho công chúng và khách hàng API vào cuối mùa thu này.

Khả năng tạo ra chất lượng cao của công cụ này hình ảnh phù hợp chặt chẽ với truy vấn của người dùng là điều đáng chú ý. Ví dụ: DALL·E 3 có thể tạo hình ảnh bằng cách tuân theo các mô tả phức tạp một cách tỉ mỉ và quản lý việc tạo văn bản trong hình ảnh, chẳng hạn như nhãn và ký hiệu, một thách thức đối với các mô hình trước đó. Tài liệu quảng cáo của OpenAI gợi ý rằng DALL·E 3 có thể hiển thị các vật thể với độ biến dạng tối thiểu, tuân thủ trung thực các lời nhắc được cung cấp.

Các cân nhắc về an toàn và đạo đức

OpenAI có cũng nhấn mạnh cam kết của mình đối với các cân nhắc về an toàn và đạo đức. Công ty đã giới thiệu các biện pháp nhằm nâng cao tính an toàn của DALL·E 3 và giảm thiểu sai lệch thuật toán. Để giải đáp những lo ngại của các nghệ sĩ về trình tạo hình ảnh, DALL·E 3 đã được lập trình để từ chối các yêu cầu tìm kiếm hình ảnh theo phong cách của các nghệ sĩ đang sống. Hơn nữa, các nghệ sĩ hiện có tùy chọn loại trừ một số hoặc tất cả hình ảnh của họ khỏi việc sử dụng để đào tạo các mô hình tạo hình ảnh OpenAI trong tương lai.

Ngoài các biện pháp này, OpenAI đã công bố hợp tác với các nhà thầu chuyên gia để tiến hành “đỏ hợp tác”các sản phẩm của mình, nhằm xác định những thành kiến ​​​​tiềm ẩn và các vấn đề khác.

Bối cảnh cạnh tranh

Trong khi DALL·E 3 sẵn sàng thiết lập các tiêu chuẩn mới Trong lĩnh vực tạo hình ảnh, OpenAI phải đối mặt với sự cạnh tranh từ các công cụ khác trên thị trường. Các công cụ nguồn mở như Stable Diffusion và các sản phẩm từ các công ty công nghệ khác nhau cũng đang cạnh tranh để giành thị phần. Tuy nhiên, với các tính năng tiên tiến và sự hỗ trợ của nó Danh tiếng của OpenAI, DALL·E 3 có vị thế tốt để dẫn đầu trong việc tạo hình ảnh do AI điều khiển.

Các ví dụ gần đây về Trình tạo hình ảnh AI

OpenAI cũng đã giới thiệu ShapE, một mô hình tổng quát có thể tạo mô hình 3D từ văn bản, mở ra những khả năng mới cho AI trong việc tạo hình ảnh. Stability AI, một công ty khởi nghiệp tập trung vào AI sáng tạo, đã phát hành StableStudio, một ứng dụng web nguồn mở sử dụng mô hình Khuếch tán ổn định để tạo hình ảnh từ lời nhắc bằng văn bản. Người dùng cũng có thể sử dụng các tính năng của DreamStudio để tạo nhiều biến thể của một hình ảnh với các kiểu và thuộc tính khác nhau. Meta, công ty trước đây có tên là Facebook, đã tiết lộ I-JEPA, trình tạo hình ảnh AI của riêng mình dựa trên mô hình biến thế tổng quát của nó. I-JEPA có thể tìm hiểu mối liên hệ giữa từ ngữ và hình ảnh, đồng thời tạo ra hình ảnh chân thực từ mô tả văn bản. Alibaba, gã khổng lồ thương mại điện tử Trung Quốc, đã ra mắt Tongyi Wanxiang, một công cụ tạo hình ảnh AI tổng hợp có thể xử lý cả tiếng Trung và tiếng Anh. Người dùng có thể tùy chỉnh các thông số đầu ra của hình ảnh bằng Composer, một mô hình lớn được phát triển bởi Alibaba Cloud. Gã khổng lồ chip Nvidia đã ra mắt công cụ sáng tạo nghệ thuật Perfusion AI vào tháng 8.

Categories: IT Info