Apple ได้เปิดตัว Pico-Banana-400K ชุดข้อมูลสาธารณะขนาดใหญ่ที่ออกแบบมาเพื่อพัฒนาการแก้ไขภาพที่ขับเคลื่อนด้วย AI คอลเลกชันเผยแพร่เมื่อวันที่ 23 ตุลาคม ประกอบด้วยการแก้ไขรูปภาพคุณภาพสูงเกือบ 400,000 รายการที่สร้างจากภาพถ่ายจริง
โครงการนี้มีจุดมุ่งหมายเพื่อแก้ปัญหาความท้าทายที่สำคัญสำหรับนักวิจัยโดยการจัดหาทรัพยากรที่เปิดกว้างและหลากหลายสำหรับการฝึกอบรมโมเดลรุ่นต่อไป
ในความเคลื่อนไหวที่โดดเด่น นักวิจัยของ Apple ใช้เครื่องมือจากคู่แข่งของ Google เพื่อสร้างชุดข้อมูล พวกเขาใช้ประโยชน์จากโปรแกรมแก้ไขรูปภาพ”Nano-Banana”เพื่อสร้างการแก้ไขและรุ่น Gemini 2.5 Pro เพื่อให้มั่นใจในคุณภาพและความแม่นยำ ขณะนี้ชุดข้อมูลฉบับสมบูรณ์พร้อมใช้งานแล้วบน GitHub สำหรับการวิจัยที่ไม่ใช่เชิงพาณิชย์
 
ความพยายามข้ามบริษัทเพื่อแก้ไขปัญหาคอขวดของการวิจัย
ในการจัดแสดงข้ามอุตสาหกรรมที่น่าประหลาดใจ Apple หันมาใช้เทคโนโลยีของคู่แข่งหลักเพื่อสร้างเครื่องมือวิจัยล่าสุด
การสร้างชุดข้อมูล Pico-Banana-400K ได้รับแรงผลักดันจากปัญหาคอขวดในการพัฒนา AI อย่างต่อเนื่อง กล่าวคือ การไม่มีชุดข้อมูลขนาดใหญ่ คุณภาพสูง และเข้าถึงได้แบบเปิดเผยตามรูปภาพจริง ทรัพยากรที่มีอยู่จำนวนมากเป็นทรัพยากรสังเคราะห์ทั้งหมด ถูกจำกัดในขอบเขตที่ดูแลจัดการโดยมนุษย์ หรือสร้างขึ้นด้วยโมเดลที่เป็นกรรมสิทธิ์ ซึ่งเป็นอุปสรรคต่อความก้าวหน้าของชุมชนในวงกว้าง
นักวิจัยของ Apple ระบุว่าเป้าหมายของพวกเขาคือการสร้าง”รากฐานที่แข็งแกร่งสำหรับการฝึกอบรมและการเปรียบเทียบโมเดลการแก้ไขรูปภาพที่มีการนำทางด้วยข้อความรุ่นต่อไป”
ตามรายงานของพวกเขา”สิ่งที่ทำให้ Pico-Banana-400K แตกต่างจากชุดข้อมูลสังเคราะห์ก่อนหน้านี้คือแนวทางที่เป็นระบบของเราในด้านคุณภาพและ ความหลากหลาย”
ทีมงานใช้โมเดล Nano-Banana อันทรงพลังของ Google ซึ่งปัจจุบันเป็นที่รู้จักอย่างเป็นทางการในชื่อ Gemini 2.5 Flash Image โดยใช้รูปถ่ายต้นฉบับจากคอลเล็กชัน OpenImages เพื่อสร้างการแก้ไขที่หลากหลาย
Gemini-2.5-Pro โมเดล Google ที่สอง ทำหน้าที่เป็นตัวตัดสินอัตโนมัติเพื่อให้มั่นใจว่าปฏิบัติตามคำแนะนำและคุณภาพของภาพ กระบวนการทั้งหมดมีค่าใช้จ่ายประมาณ 100,000 ดอลลาร์
ภายในชุดข้อมูล: มากกว่าการแก้ไขเพียงครั้งเดียว
การเจาะลึกลงไปในโครงสร้างของชุดข้อมูลเผยให้เห็นทรัพยากรที่ออกแบบมาสำหรับสถานการณ์การวิจัยที่ซับซ้อน แม้ว่าคอลเลกชันจะมีชื่อว่า”400K”แต่จริงๆ แล้วคอลเลกชันประกอบด้วยตัวอย่างที่คัดสรรแล้ว 386,000 ตัวอย่าง ซึ่งจัดอยู่ในอนุกรมวิธานโดยละเอียดของประเภทการแก้ไข 35 ประเภทในหมวดหมู่หลักๆ 8 หมวดหมู่
มีตั้งแต่การปรับพิกเซลและโฟโตเมตริกอย่างง่าย ไปจนถึงการเปลี่ยนแปลงความหมายระดับวัตถุที่ซับซ้อน การแก้ไของค์ประกอบของฉาก และการแปลงรูปแบบ
ส่วนที่ใหญ่ที่สุดประกอบด้วยตัวอย่างแบบเลี้ยวเดียว 258,000 ตัวอย่างสำหรับการปรับแต่งแบบละเอียดมาตรฐานภายใต้การดูแล ชุดย่อยที่สองมีตัวอย่างหลายรอบ 72,000 ตัวอย่าง ช่วยให้สามารถค้นคว้าเกี่ยวกับการแก้ไขตามลำดับและการปรับเปลี่ยนตามบริบท โดยที่แบบจำลองต้องติดตามการเปลี่ยนแปลงในหลายขั้นตอน
สุดท้าย ชุดย่อยการตั้งค่าตัวอย่าง 56,000 รายการจะรวมคู่ของการแก้ไขที่สำเร็จและล้มเหลว นี่เป็นสิ่งสำคัญสำหรับการวิจัยการจัดตำแหน่งและสำหรับการฝึกอบรมโมเดลรางวัลที่สามารถเรียนรู้ที่จะแยกแยะผลลัพธ์คุณภาพสูงจากผลลัพธ์ที่มีข้อบกพร่อง นักวิจัยสามารถเข้าถึงชุดข้อมูลทั้งหมดได้ที่ พอร์ทัลการวิจัยของ Apple ภายใต้ใบอนุญาต Creative Commons ที่ไม่ใช่เชิงพาณิชย์
Illuminating the Frontier และ Failures, of AI Editing
สำหรับชุมชนการวิจัย AI การเผยแพร่นี้เป็นมากกว่าแหล่งข้อมูลใหม่ เป็นตัวบ่งชี้ที่ชัดเจนว่าเทคโนโลยีมีความเป็นเลิศตรงไหนและยังคงประสบปัญหาอยู่ที่ใด
ตัวชี้วัดประสิทธิภาพจากชุดข้อมูลแสดงให้เห็นว่าการแก้ไขทั่วโลกและเชิงโวหาร เช่น การใช้ฟิลเตอร์โบราณหรือการเปลี่ยนโทนโดยรวมของฉากเป็น “ชั่วโมงทอง” มีความน่าเชื่อถือสูง อย่างไรก็ตาม การแก้ไขที่ต้องใช้การควบคุมเชิงพื้นที่ที่แม่นยำและความเข้าใจทางเรขาคณิตยังคงเป็นความท้าทายที่สำคัญ
งานต่างๆ เช่น การย้ายวัตถุภายในฉากมีอัตราความสำเร็จต่ำกว่า 60% และการสร้างข้อความภายในภาพมีความเปราะบางเป็นพิเศษ
สิ่งนี้ให้บริบทที่มีคุณค่าสำหรับตลาดภาพ AI ที่มีการแข่งขันสูง โมเดล Nano-Banana ของ Google กลายเป็นโปรแกรมตกแต่งรูปภาพที่ได้รับคะแนนสูงสุดในลีดเดอร์บอร์ดสาธารณะก่อนที่จะเปิดตัวอย่างเป็นทางการเสียอีก
ความสำเร็จนี้เป็นส่วนหนึ่งของการแข่งขันในอุตสาหกรรมในวงกว้าง โดยที่ ByteDance เปิดตัวโมเดล Seedream 4.0 ในฐานะผู้ท้าชิงโดยตรงและเทคโนโลยีการออกใบอนุญาต Meta จาก Midjourney หลังจากความล้มเหลวภายใน
ความสามารถภายในโมเดลเหล่านี้กำลังขยายตัวอย่างรวดเร็ว Nicole Brichtova หัวหน้าผลิตภัณฑ์ของ Google DeepMind กล่าวว่า”เรากำลังมอบความสามารถที่เคยต้องใช้เครื่องมือพิเศษมาไว้ในมือของครีเอเตอร์ในทุกๆ วัน และรู้สึกเป็นแรงบันดาลใจที่ได้เห็นการระเบิดของความคิดสร้างสรรค์ที่จุดประกายขึ้น”
ผู้ใช้งานกลุ่มแรกๆ ต่างชื่นชมความสม่ำเสมอของโมเดล Andrew Carr ผู้ร่วมก่อตั้ง Cartwheel สตาร์ทอัพด้าน AI พบว่ามีความสามารถพิเศษ โดยกล่าวว่า”Gemini 2.5 Flash Image โมเดลใหม่เป็นรุ่นแรกที่สามารถให้บริการทั้งสองอย่างได้”
การเปิดตัวของ Apple ยังถูกกล่าวถึงในฐานะตัวอย่างสำคัญของ”การกลั่นแบบจำลอง”นี่เป็นกระบวนการที่ใช้แบบจำลองขนาดใหญ่ที่ทรงพลัง (นาโน-บานาน่า) เพื่อสร้างชุดข้อมูลการฝึกขนาดใหญ่
นักวิจัยคนอื่นๆ จะสามารถใช้ข้อมูลสาธารณะนี้เพื่อฝึกโมเดลที่มีขนาดเล็กลง มีประสิทธิภาพมากขึ้น และอาจเป็นแบบโอเพ่นซอร์สที่เลียนแบบความสามารถของระบบที่เป็นกรรมสิทธิ์ดั้งเดิม ด้วยการเผยแพร่ผลงานคุณภาพสูงเหล่านี้สู่สาธารณะ Apple กำลังช่วยให้เข้าถึง AI ที่ล้ำสมัยได้อย่างมีประสิทธิภาพ และส่งเสริมภูมิทัศน์การวิจัยที่เปิดกว้างและร่วมมือกันมากขึ้น
“`