Apple đã phát hành Pico-Banana-400K một tập dữ liệu công khai quy mô lớn được thiết kế để nâng cao khả năng chỉnh sửa hình ảnh dựa trên AI. Được xuất bản vào ngày 23 tháng 10, bộ sưu tập này chứa gần 400.000 chỉnh sửa hình ảnh chất lượng cao được xây dựng từ ảnh thật.

Dự án nhằm giải quyết thách thức chính cho các nhà nghiên cứu bằng cách cung cấp một nguồn tài nguyên mở và đa dạng để đào tạo các người mẫu thế hệ tiếp theo.

Trong một động thái đáng chú ý, các nhà nghiên cứu của Apple đã sử dụng các công cụ của đối thủ cạnh tranh Google để tạo tập dữ liệu. Họ tận dụng trình chỉnh sửa hình ảnh “Nano-Banana” để tạo ra các chỉnh sửa và mô hình Gemini 2.5 Pro để đảm bảo chất lượng và độ chính xác. Tập dữ liệu đầy đủ hiện có sẵn trên GitHub cho nghiên cứu phi thương mại.

Nỗ lực liên công ty nhằm giải quyết nút thắt nghiên cứu

Trong một màn trình diễn đáng ngạc nhiên về sự hợp tác giữa các ngành, Apple đã tìm đến giám đốc của mình công nghệ của đối thủ để xây dựng công cụ nghiên cứu mới nhất của mình.

Việc tạo Bộ dữ liệu Pico-Banana-400K được thúc đẩy bởi một nút thắt dai dẳng trong quá trình phát triển AI: thiếu các bộ dữ liệu lớn, chất lượng cao và có thể truy cập công khai dựa trên hình ảnh thực. Nhiều tài nguyên hiện có hoàn toàn là tài nguyên tổng hợp, bị giới hạn trong phạm vi do con người quản lý hoặc được xây dựng bằng các mô hình độc quyền, cản trở sự tiến bộ của cộng đồng rộng rãi.

Các nhà nghiên cứu của Apple cho biết mục tiêu của họ là tạo ra một “nền tảng vững chắc để đào tạo và đánh giá thế hệ tiếp theo của các mô hình chỉnh sửa hình ảnh được hướng dẫn bằng văn bản”. từ bộ sưu tập OpenImages, nhóm đã sử dụng mô hình Nano-Banana mạnh mẽ của Google, hiện có tên chính thức là Gemini 2.5 Flash Image, để tạo ra một loạt chỉnh sửa.

Mô hình thứ hai của Google, Gemini-2.5-Pro, đóng vai trò là người đánh giá tự động để đảm bảo tuân thủ hướng dẫn và chất lượng hình ảnh. Toàn bộ quá trình tiêu tốn khoảng 100.000 USD.

Bên trong Tập dữ liệu: Không chỉ là những chỉnh sửa đơn lẻ

Việc đi sâu vào cấu trúc của tập dữ liệu sẽ tiết lộ một tài nguyên được thiết kế cho các tình huống nghiên cứu phức tạp. Mặc dù được đặt tên là “400K”, nhưng bộ sưu tập này thực sự bao gồm 386.000 ví dụ được tuyển chọn, được sắp xếp thành một phân loại chi tiết gồm 35 loại chỉnh sửa thuộc 8 danh mục chính.

Những phạm vi này từ điều chỉnh pixel và trắc quang đơn giản đến những thay đổi ngữ nghĩa cấp đối tượng phức tạp, chỉnh sửa bố cục cảnh và chuyển đổi phong cách.

Phần lớn nhất của nó chứa 258.000 ví dụ một lượt để tinh chỉnh tiêu chuẩn có giám sát. Tập hợp con thứ hai cung cấp 72.000 ví dụ nhiều lượt, cho phép nghiên cứu chỉnh sửa tuần tự và sửa đổi theo ngữ cảnh trong đó mô hình phải theo dõi các thay đổi qua nhiều bước.

Cuối cùng, tập hợp con ưu tiên gồm 56.000 mẫu bao gồm các cặp chỉnh sửa thành công và thất bại. Điều này rất quan trọng đối với nghiên cứu liên kết và đào tạo các mô hình khen thưởng có thể học cách phân biệt đầu ra chất lượng cao với đầu ra có sai sót. Các nhà nghiên cứu có thể truy cập tập dữ liệu hoàn chỉnh trên cổng nghiên cứu của Apple theo giấy phép phi thương mại Creative Commons.

Chia sáng biên giới và thất bại của chỉnh sửa AI

Đối với cộng đồng nghiên cứu AI, bản phát hành không chỉ là một nhóm dữ liệu mới; đó là dấu hiệu rõ ràng về điểm vượt trội của công nghệ và điểm vẫn còn gặp khó khăn.

Chỉ số hiệu suất từ ​​tập dữ liệu cho thấy các chỉnh sửa tổng thể và mang tính phong cách, chẳng hạn như áp dụng bộ lọc cổ điển hoặc thay đổi tông màu tổng thể của cảnh thành “giờ vàng”, có độ tin cậy cao. Tuy nhiên, các chỉnh sửa yêu cầu kiểm soát không gian chính xác và hiểu biết về hình học vẫn là một thách thức đáng kể.

Các nhiệm vụ như di chuyển một đối tượng trong một cảnh có tỷ lệ thành công dưới 60% và việc tạo văn bản trong hình ảnh đặc biệt dễ vỡ.

Điều này mang lại bối cảnh có giá trị cho thị trường hình ảnh AI đang cạnh tranh khốc liệt. Mô hình Nano-Banana cơ bản của Google đã trở thành trình chỉnh sửa hình ảnh được xếp hạng hàng đầu trên các bảng xếp hạng công khai ngay cả trước khi ra mắt chính thức.

Thành công của mô hình này là một phần của cuộc chạy đua trong ngành rộng lớn hơn, với việc ByteDance tung ra mô hình Seedream 4.0 với tư cách là đối thủ trực tiếp và công nghệ cấp phép Meta từ Midjourney sau những thất bại nội bộ.

Khả năng trong các mô hình này đang nhanh chóng mở rộng. Nicole Brichtova, trưởng nhóm sản phẩm tại Google DeepMind, cho biết: “Chúng tôi đang trao những khả năng vốn thường yêu cầu các công cụ chuyên dụng vào tay những người sáng tạo hàng ngày và thật cảm hứng khi chứng kiến ​​sự bùng nổ của tính sáng tạo mà điều này đã khơi dậy”.

Những người áp dụng ban đầu đã ca ngợi tính nhất quán của mô hình. Andrew Carr, người đồng sáng lập công ty khởi nghiệp AI Cartwheel, nhận thấy nó có khả năng độc đáo và nói rằng:”Mẫu Flash Image Gemini 2.5 mới là mẫu đầu tiên có thể cung cấp cả hai.”

Bản phát hành của Apple cũng đang được thảo luận như một ví dụ điển hình về”sự chắt lọc mô hình”. Đây là một quá trình trong đó một mô hình lớn, mạnh mẽ (Nano-Banana) được sử dụng để tạo ra một tập dữ liệu đào tạo khổng lồ.

Sau đó, các nhà nghiên cứu khác có thể sử dụng dữ liệu công khai này để đào tạo các mô hình nguồn mở nhỏ hơn, hiệu quả hơn và có tiềm năng bắt chước khả năng của hệ thống độc quyền ban đầu. Bằng cách công khai những kết quả đầu ra chất lượng cao này, Apple đang giúp dân chủ hóa một cách hiệu quả khả năng tiếp cận AI tiên tiến, thúc đẩy bối cảnh nghiên cứu hợp tác và cởi mở hơn.

“`

Categories: IT Info