Google ได้เปิดตัวชุดการอัปเดตที่ก้าวล้ำสำหรับเครื่องมือ AI เชิงสร้างสรรค์ ซึ่งแสดงให้เห็นถึงความมุ่งมั่นในการเสริมสร้างความคิดสร้างสรรค์ผ่านเทคโนโลยี หัวใจของการประกาศเหล่านี้คือ Veo 2 ซึ่งเป็นเครื่องกำเนิดวิดีโอ AI ยุคถัดไปของบริษัทที่สามารถสร้างเอาต์พุตความละเอียด 4K ได้
การเข้าร่วม Veo 2 คือเครื่องมือสร้างรูปภาพ Imagen 3 ที่อัปเดตและเครื่องมือใหม่ที่เรียกว่า Whisk ซึ่งช่วยให้ผู้ใช้สามารถรีมิกซ์ภาพโดยใช้ข้อความแจ้งตามรูปภาพ เครื่องมือเหล่านี้ร่วมกันแสดงถึงการก้าวกระโดดครั้งสำคัญสำหรับความทะเยอทะยานของ Google ในด้านการแข่งขันด้านความคิดสร้างสรรค์ของ AI โดยกำหนดเป้าหมายไปที่ผู้สร้างเนื้อหา ศิลปิน และองค์กรต่างๆ
Veo 2: การสร้างวิดีโอขั้นสูงใน 4K
strong>
Veo 2 ต่อยอดมาจาก Veo รุ่นก่อนซึ่งเปิดตัวเมื่อต้นปีนี้ โดยนำเสนอการปรับปรุงอย่างมากในด้านความสมจริงของวิดีโอและการควบคุมผู้ใช้ รุ่นใหม่รองรับความละเอียด 4K ให้ภาพที่คมชัดและการเคลื่อนไหวที่ราบรื่นยิ่งขึ้น ซึ่งเป็นการอัพเกรดที่ชัดเจนจากขีดจำกัด 1080p ของเวอร์ชันก่อนหน้า
นอกเหนือจากความละเอียดแล้ว Veo 2 ยังนำเสนอคุณสมบัติที่ช่วยให้ผู้ใช้สามารถสร้างองค์ประกอบภาพยนตร์ที่มีความเฉพาะเจาะจงสูงได้
ข้อความแจ้ง เช่น “ใช้เลนส์ 18 มม. สำหรับเอฟเฟกต์มุมกว้าง” หรือ “โฟกัสไปที่วัตถุที่มีระยะชัดตื้น” ช่วยให้สามารถควบคุมความสวยงามของภาพในวิดีโอที่สร้างขึ้นได้อย่างละเอียด
Google อธิบายว่าแบบจำลองนี้ได้รับการฝึกอบรมเกี่ยวกับ”ภาษาของการถ่ายภาพยนตร์”ทำให้สามารถจำลองเอฟเฟ็กต์ภาพที่ซับซ้อนซึ่งก่อนหน้านี้เคยเป็นขอบเขตของผู้สร้างภาพยนตร์มืออาชีพ
ในการสาธิต Veo 2 แสดงให้เห็นความสามารถในการจัดการกับสถานการณ์ที่มองเห็นที่ซับซ้อนได้อย่างแม่นยำ ตัวอย่างหนึ่งแสดงให้เห็นคนเลี้ยงผึ้งทำงานท่ามกลางฝูงผึ้ง ซึ่งการเคลื่อนไหวของผึ้งและการสะท้อนของแสงบนปีกของพวกมันถูกถ่ายทอดออกมาได้อย่างแม่นยำเหมือนจริง
[เนื้อหาที่ฝัง]
อีกคลิปหนึ่งแสดงให้เห็นนักวิทยาศาสตร์กำลังมองเข้าไปในกล้องจุลทรรศน์ โดยกล้องจะจับภาพความเข้มข้นที่รุนแรงและรายละเอียดสิ่งแวดล้อมที่ละเอียดอ่อน เช่น แสงจากหลอดฟลูออเรสเซนต์ของห้องปฏิบัติการ
Google กล่าวเช่นนั้น Veo 2 นำเสนอความเข้าใจที่ดีขึ้นเกี่ยวกับฟิสิกส์ในโลกแห่งความเป็นจริงและความละเอียดอ่อนของการเคลื่อนไหวและการแสดงออกของมนุษย์ โดยมีเป้าหมายเพื่อปรับปรุงความสมจริงและแก้ไขความท้าทายทั่วไปในการสร้างวิดีโอ AI
[เนื้อหาที่ฝัง]
การปรับปรุงในความสมจริงขยายไปยัง จัดการกับข้อผิดพลาดทั่วไปของเครื่องสร้างวิดีโอ AI เช่น รูปร่างมนุษย์ที่บิดเบี้ยว การเคลื่อนไหวที่ไม่สมจริง หรือสิ่งแปลกปลอมทางภาพที่ไม่เกี่ยวข้อง ความสามารถของ Veo 2 ในการจัดการความท้าทายเหล่านี้ทำให้ Veo 2 กลายเป็นเครื่องมือชั้นนำสำหรับนักสร้างสรรค์มืออาชีพที่กำลังมองหาเนื้อหาวิดีโอที่สร้างโดย AI คุณภาพสูง
SynthID: การคุ้มครองทางจริยธรรมสำหรับเนื้อหา AI
เพื่อแก้ไขข้อกังวลด้านจริยธรรมเกี่ยวกับการใช้เนื้อหาที่สร้างโดย AI ในทางที่ผิด Veo 2 ได้รวมเทคโนโลยีลายน้ำ SynthID ของ Google เข้าด้วยกัน ลายเซ็นดิจิทัลที่มองไม่เห็นนี้ถูกฝังลงในเอาต์พุตโดยตรง ทำให้สามารถระบุวิดีโอที่สร้างโดย AI ได้โดยไม่กระทบต่อคุณภาพของภาพ
SynthID ได้รับการออกแบบมาเพื่อลดความเสี่ยง เช่น ข้อมูลที่ไม่ถูกต้องหรือการบิดเบือนที่เป็นอันตราย เพื่อให้มั่นใจว่าเครื่องมือ AI จะถูกใช้งานอย่างมีความรับผิดชอบ ในการประกาศ Google เน้นย้ำว่าพวกเขามุ่งเน้นไปที่การรับรองความน่าเชื่อถือและการตรวจสอบย้อนกลับของผลลัพธ์ของ Veo 2 ซึ่งสนับสนุนโดยฟีเจอร์ต่างๆ เช่น ลายน้ำ SynthID
SynthID ทำงานอย่างรอบคอบ ซึ่งต่างจากลายน้ำที่มองเห็นได้ ซึ่ง Google โต้แย้งว่าทำให้ใช้งานได้จริงมากขึ้น สำหรับการใช้งานระดับมืออาชีพโดยยังคงความโปร่งใส อย่างไรก็ตาม วิธีการนี้ยังทำให้เกิดคำถามเกี่ยวกับการบังคับใช้ เนื่องจากต้องอาศัยผู้ใช้หรือแพลตฟอร์มในการตรวจสอบเนื้อหาอย่างจริงจังเพื่อตรวจจับการใช้งานในทางที่ผิดที่อาจเกิดขึ้น
การใช้งาน SynthID ของ Google สอดคล้องกับความพยายามที่กว้างขึ้นภายในอุตสาหกรรมเทคโนโลยี รวมถึง Content Authenticity Initiative และโปรโตคอลลายน้ำ C2PA แบบโอเพ่นซอร์ส ซึ่ง Google เป็นผู้มีส่วนร่วม
Veo ขณะนี้ผู้ใช้สามารถเข้าถึงเวอร์ชัน 2 ได้ผ่านทางแพลตฟอร์ม VideoFX ใน Google Labs โดยมีการวางแผนการเปิดตัวที่กว้างขึ้นสำหรับ ปี 2025 นอกจากนี้บริษัทยังได้ประกาศแผนการผสานรวมเทคโนโลยีเข้ากับ YouTube Shorts อีกด้วย ซึ่งช่วยให้ผู้สร้างบนแพลตฟอร์มสามารถสร้างวิดีโอคุณภาพสูงที่ขับเคลื่อนด้วย AI ได้โดยตรง
ณ ขณะนี้ การเข้าถึงยังคงถูกจำกัดผ่านระบบรายการรอ ซึ่งสะท้อนถึงแนวทางที่ระมัดระวังของ Google ในการปรับขนาดความพร้อมใช้งาน
ภาพรวมการแข่งขันในวิดีโอ AI
ความก้าวหน้าของ Google ในการสร้างวิดีโอเกิดขึ้นเมื่อการแข่งขันในด้าน AI ดุเดือดมากขึ้น OpenAI เพิ่งเปิดตัวโปรแกรมสร้างวิดีโอ Sora แต่ความสามารถของมันยังคงจำกัดอยู่ที่ความละเอียด 1080p และระยะเวลาคลิปสั้นลงสูงสุด 20 วินาที
[เนื้อหาที่ฝัง]
ในทางตรงกันข้าม Veo 2 รองรับความละเอียดสูงสุด 4K และสามารถสร้างคลิปที่ยาวขึ้น โดยมีระยะเวลาขยายออกไปหลายนาที ในระหว่างการประเมินภายใน Google รายงานว่าผู้ใช้ 59% ชอบผลลัพธ์ของ Veo 2 มากกว่าผลลัพธ์ของ Sora Turbo ซึ่งเป็นเครื่องมือเวอร์ชันอัปเกรดของ OpenAI
ตามข้อมูลของ Google พบว่า 59% ของผู้ใช้ในการประเมินภายในชอบ Veo 2 มากกว่า Sora Turbo เน้นย้ำถึงความเหนือชั้นทางเทคนิค
ทางรันเวย์ ซึ่งเป็นผู้เล่นหลักอีกรายในด้าน generative AI ก็ได้สร้างความก้าวหน้าในการสร้างวิดีโอเช่นกัน แต่ยังคงจำกัดอยู่เพียง เอาต์พุต 720p ตำแหน่งนี้ Veo 2 ของ Google เป็นเครื่องมือที่ทันสมัยที่สุดสำหรับการสร้างวิดีโอระดับมืออาชีพ
การมุ่งเน้นเชิงกลยุทธ์ของบริษัทในด้านความสมจริง การควบคุมผู้ใช้ และผลลัพธ์คุณภาพสูง ตอกย้ำความตั้งใจของบริษัทที่จะคว้าส่วนแบ่งสำคัญของตลาดที่กำลังเติบโตสำหรับเครื่องมือสร้างสรรค์ที่ขับเคลื่อนด้วย AI
[เนื้อหาแบบฝัง]
Imagen 3: การขยายความเป็นไปได้ทางศิลปะในการสร้างภาพ AI
Google ยังได้ปรับปรุง Imagen 3 ซึ่งเป็นการทำซ้ำล่าสุดของโมเดลการสร้างภาพ AI การอัปเดตเป็น Imagen 3 นำเสนอพื้นผิวที่คมชัดยิ่งขึ้น ความสมดุลขององค์ประกอบที่ได้รับการปรับปรุง และการรองรับที่ขยายสำหรับสไตล์ศิลปะที่หลากหลาย ตั้งแต่การแสดงภาพเสมือนจริงไปจนถึงการตีความแบบอิมเพรสชั่นนิสม์
หนึ่งในคุณสมบัติที่โดดเด่นของ Imagen 3 คือความสามารถในการแสดงภาพ ด้วยความเที่ยงตรงต่อการแจ้งเตือนของผู้ใช้มากขึ้น ขณะนี้โมเดลสร้างผลลัพธ์ที่สอดคล้องกับคำอธิบายที่ให้ไว้อย่างแม่นยำมากขึ้น ช่วยลดความคลุมเครือที่บางครั้งรบกวนเวอร์ชันก่อนหน้า
ความสามารถของ Imagen 3 ในการปรับให้เข้ากับสไตล์และสถานการณ์ทางศิลปะที่หลากหลาย ทำให้เป็นเครื่องมือที่น่าสนใจสำหรับผู้ใช้ที่หลากหลาย ตั้งแต่นักออกแบบมืออาชีพไปจนถึงมือสมัครเล่นที่สำรวจโครงการสร้างสรรค์ แบบจำลองนี้มีความยอดเยี่ยมในการสร้างภาพที่สมดุลระหว่างความสมบูรณ์แบบทางศิลปะและการยึดติดที่รวดเร็ว
ในชุดตัวอย่างที่ Google แชร์ Imagen 3 ได้แสดงความสามารถผ่านการสร้างสรรค์ที่สะดุดตา รวมถึงฉากสถานีรถไฟที่เต็มไปด้วยหมอกในทศวรรษปี 1940 สตรอเบอร์รี่ที่แกะสลักเป็นรูปนกฮัมมิ่งเบิร์ดกลางอากาศ และ ภาพมาโครความละเอียดสูงของหม้อเซรามิกที่แกะสลักบนล้อ
แต่ละตัวอย่างเน้นย้ำถึงความสามารถของโมเดลในการเก็บรายละเอียดเล็กๆ น้อยๆ เช่น การแสดงแสงและเงา หรือพื้นผิวที่ซับซ้อนของวัสดุ
Google เน้นย้ำว่า Imagen 3 รองรับสไตล์ศิลปะที่หลากหลาย รวมถึง ภาพที่เหมือนจริง แนวคิดนามธรรม และภาพที่ได้รับแรงบันดาลใจจากอะนิเมะ นำเสนอความยืดหยุ่นเพื่อตอบสนองความต้องการสร้างสรรค์ที่หลากหลาย
ประเด็น: นิยามใหม่ของการรีมิกซ์ภาพ
Google ยังเปิดตัว <ก href="https://blog.google/technology/google-labs/httpsbloggoogletechnologygoogle-labswhisk/">เครื่องมือใหม่ที่เรียกว่า Whisk ซึ่งนำเสนอแนวทางใหม่สำหรับความคิดสร้างสรรค์ที่ขับเคลื่อนด้วย AI โดยอนุญาตให้ผู้ใช้รวมการแสดงภาพ สำหรับการสร้างภาพใหม่
Whist แตกต่างจากระบบข้อความแบบดั้งเดิม โดยให้ผู้ใช้อัปโหลดภาพเพื่อกำหนดหัวข้อ ฉาก หรือสไตล์ ซึ่งเครื่องมือจะประมวลผลเพื่อสร้างผลลัพธ์ที่สอดคล้องกัน สิ่งนี้ทำให้เหมาะสำหรับผู้ใช้ที่ต้องการสร้างต้นแบบแนวคิดอย่างรวดเร็วโดยไม่ต้องอาศัยคำอธิบายข้อความที่กว้างขวาง
Whisk ใช้ประโยชน์จากความสามารถของโมเดล Gemini ของ Google ซึ่งวิเคราะห์และใส่คำอธิบายภาพที่อัปโหลดเพื่อแยกคุณสมบัติหลักออกมา จากนั้นคำบรรยายเหล่านี้จะถูกป้อนเข้าไปใน Imagen 3 ทำให้เครื่องมือสามารถสร้างการผสมผสานที่เป็นเอกลักษณ์ขององค์ประกอบภาพที่ให้มาได้
ในการสาธิตครั้งหนึ่ง Whisk ถูกนำมาใช้เพื่อรวมภาพของมอเตอร์ไซค์วินเทจที่มีพื้นหลังเป็นป่าและสไตล์ศิลปะที่ได้รับแรงบันดาลใจจากอนิเมะในช่วงปี 1980 ผลลัพธ์ที่ได้คือการจัดองค์ประกอบภาพที่สอดคล้องกันซึ่งผสมผสานองค์ประกอบทั้งสามอย่างเข้าด้วยกันอย่างลงตัว ผู้ใช้สามารถปรับแต่งผลลัพธ์เพิ่มเติมได้โดยการปรับข้อความแจ้งหรือปรับแต่งฟีเจอร์แต่ละรายการ โดยเสนอแนวทางทำซ้ำในการสำรวจความคิดสร้างสรรค์
[เนื้อหาที่ฝัง]
Whisk แสดงถึงอีกมิติหนึ่งของความพยายามของ Google ในการสร้างสมดุลระหว่างความคิดสร้างสรรค์กับความรับผิดชอบตามหลักจริยธรรม ด้วยการทำให้ผู้ใช้สามารถรวมการแสดงภาพได้ เครื่องมือนี้จะเปิดโอกาสใหม่ๆ สำหรับการทดลองเชิงสร้างสรรค์
อย่างไรก็ตาม การพึ่งพาภาพที่อัปโหลดทำให้เกิดคำถามเกี่ยวกับทรัพย์สินทางปัญญาและความเป็นส่วนตัว แม้ว่า Whisk จะไม่สร้างแบบจำลองที่แน่นอนของภาพที่อัปโหลด แต่จะแยกคุณสมบัติหลักเพื่อสร้างองค์ประกอบใหม่ ซึ่งอาจจำลององค์ประกอบที่ละเอียดอ่อนหรือมีลิขสิทธิ์โดยไม่ได้ตั้งใจ
ความพร้อมใช้งานทั่วโลกที่กว้างขึ้น แต่มีข้อจำกัด
Imagen 3 พร้อมใช้งานแล้วทั่วโลกผ่าน แพลตฟอร์ม ImageFX ของ Google Labs พร้อมด้วย ข้อยกเว้นของ เยอรมนี. Google อ้างถึงกลยุทธ์การเปิดตัวแบบค่อยเป็นค่อยไปตามปกติเป็นเหตุผลของข้อจำกัดนี้ แต่นักวิเคราะห์อุตสาหกรรมชี้ให้เห็นถึงอิทธิพลที่เป็นไปได้ของพระราชบัญญัติ AI ของสหภาพยุโรป
กฎหมายนี้กำหนดให้บริษัทต้องเปิดเผยข้อมูลโดยละเอียดเกี่ยวกับชุดข้อมูลที่ใช้ในการฝึกโมเดล AI ของตน รวมถึงเนื้อหาที่มีลิขสิทธิ์ที่เกี่ยวข้องหรือไม่
แม้ว่า Google จะไม่ยืนยันข้อมูลเฉพาะของการฝึกอบรมของ Imagen 3 แต่รายงานก่อนหน้านี้แนะนำว่าชุดข้อมูลที่มีภาพที่เปิดเผยต่อสาธารณะ ซึ่งอาจรวมถึงเนื้อหา YouTube มีส่วนช่วยในการพัฒนาโมเดล
สิ่งนี้ การขาดความโปร่งใสทำให้เกิดความกังวลในหมู่ศิลปินและผู้สนับสนุนลิขสิทธิ์ ซึ่งโต้แย้งว่าการใช้ภาพที่เปิดเผยต่อสาธารณะโดยไม่ได้รับอนุญาตอย่างชัดแจ้งทำให้เกิดคำถามด้านจริยธรรมและกฎหมาย
ในแถลงการณ์อย่างเป็นทางการ Google ย้ำถึงความมุ่งมั่นต่อความโปร่งใสและการมีส่วนร่วมในความคิดริเริ่มที่มุ่งสร้างมาตรฐานทางจริยธรรมสำหรับข้อมูลการฝึกอบรม AI
ความท้าทายด้านจริยธรรมและการเปลี่ยนแปลงของตลาดการแข่งขัน
strong>
ในขณะที่ Google ขยายขอบเขตของ generative AI ด้วย Veo 2, Imagen 3 และ Whisk ข้อพิจารณาทางจริยธรรมก็มีมากขึ้น ความซับซ้อนที่เพิ่มขึ้นของเครื่องมือเหล่านี้ทำให้เกิดคำถามเกี่ยวกับข้อมูลการฝึกอบรมที่ใช้ ศักยภาพในการใช้ในทางที่ผิด และความสมดุลระหว่างนวัตกรรมและความรับผิดชอบ
Google ยังคงปกปิดอย่างเข้มงวดเกี่ยวกับชุดข้อมูลที่ใช้ในการฝึกโมเดล รวมถึง Veo 2 และ Imagen 3 ซึ่งได้รับการตรวจสอบอย่างละเอียดจากศิลปิน ผู้สนับสนุนด้านลิขสิทธิ์ และหน่วยงานกำกับดูแล
อุตสาหกรรม รายงานแนะนำว่าวิดีโอ YouTube และเนื้อหาสาธารณะอื่น ๆ อาจมีบทบาทในกระบวนการฝึกอบรม ซึ่งเป็นแนวทางปฏิบัติที่จุดประกายให้เกิดการถกเถียงเกี่ยวกับสิทธิในทรัพย์สินทางปัญญาใน AI นักวิจารณ์โต้แย้งว่าการใช้ข้อมูลดังกล่าวอาจละเมิดลิขสิทธิ์ของผู้สร้าง โดยเฉพาะอย่างยิ่งเมื่อไม่ได้รับความยินยอมอย่างชัดแจ้ง
พระราชบัญญัติ AI ของสหภาพยุโรปทำให้ข้อกังวลเหล่านี้รุนแรงขึ้นโดยกำหนดให้บริษัทต่างๆ ต้องเปิดเผยว่าเนื้อหาที่มีลิขสิทธิ์เป็นส่วนหนึ่งของชุดข้อมูลการฝึกอบรมของตนหรือไม่ แม้ว่า Google จะระบุว่าตนมุ่งมั่นที่จะสร้างความโปร่งใส แต่บริษัทยังไม่ได้ให้รายละเอียดที่ครอบคลุมเกี่ยวกับที่มาของข้อมูลการฝึกอบรม
ผลกระทบในวงกว้างสำหรับอุตสาหกรรมสร้างสรรค์
การบูรณาการเครื่องมือต่างๆ เช่น Veo 2, Imagen 3 และ Whisk มีศักยภาพในการเปลี่ยนแปลงอุตสาหกรรม ตั้งแต่การสร้างภาพยนตร์และการโฆษณา ไปจนถึงงานศิลปะดิจิทัลและการสร้างเนื้อหา
เครื่องมือเหล่านี้ลดอุปสรรคในการเข้าสู่ตลาดด้วยการลดอุปสรรคในการเข้าสู่ตลาด ช่วยให้ผู้สร้างทุกระดับทักษะ เพื่อสร้างภาพคุณภาพสูงที่ครั้งหนึ่งเคยทำได้ผ่านสตูดิโอมืออาชีพเท่านั้น ในเวลาเดียวกัน พวกเขาตั้งคำถามสำคัญเกี่ยวกับอนาคตของงานสร้างสรรค์และบทบาทของ AI ในการกำหนดรูปแบบการแสดงออกทางวัฒนธรรมและศิลปะ
สำหรับผู้สร้างภาพยนตร์ Veo 2 เสนอทางเลือกที่คุ้มค่าสำหรับการสร้างภาพภาพยนตร์ ในขณะที่ Imagen 3 และ Whisk มอบช่องทางใหม่ในการสำรวจสไตล์และแนวคิดทางศิลปะ
อย่างไรก็ตาม การใช้เครื่องมือ AI ยังทำให้เกิดความกังวลเกี่ยวกับการแทนที่บทบาทสร้างสรรค์แบบดั้งเดิม เช่น ช่างถ่ายภาพยนตร์ นักออกแบบ และนักวาดภาพประกอบ การสร้างสมดุลระหว่างการเปิดใช้งานนวัตกรรมและการรักษาความสมบูรณ์ของความคิดสร้างสรรค์ของมนุษย์จะเป็นความท้าทายที่สำคัญสำหรับบริษัทอย่าง Google ในขณะที่พวกเขายังคงพัฒนาเทคโนโลยีเหล่านี้ต่อไป
ชุดเครื่องมือล่าสุดของ Google สะท้อนให้เห็นถึงวิสัยทัศน์สำหรับ AI ที่จัดลำดับความสำคัญในการเข้าถึง ความยืดหยุ่น และความรับผิดชอบ ด้วยความก้าวหน้าต่างๆ เช่น การสร้างวิดีโอ 4K ความสมจริงของภาพที่ปรับปรุงใหม่ และการรีมิกซ์ภาพ บริษัทตั้งเป้าที่จะเสริมพลังให้กับผู้สร้าง ในขณะเดียวกันก็จัดการกับความท้าทายด้านจริยธรรมและทางเทคนิคที่มาพร้อมกับนวัตกรรม AI