อาลีบาบาได้จัดทำซีรีย์วิดีโอและการสร้างภาพ AI ที่ขับเคลื่อนด้วย AI, WAN 2.1 ซึ่งมีให้บริการอย่างอิสระในฐานะซอฟต์แวร์โอเพนซอร์ซวางตำแหน่งตัวเองกับโมเดลที่เป็นกรรมสิทธิ์เช่น Sora ของ Openai และ Veo 2 ของ Google

การย้ายสัญญาณการเปลี่ยนแปลงครั้งใหญ่ในตลาดวิดีโอ AI ในขณะที่ Openai และ Google มีการควบคุมการเข้าถึงแบบจำลองของพวกเขาอย่างแน่นหนาอาลีบาบากำลังเดิมพันในการยอมรับที่กว้างขึ้นผ่านการเข้าถึงแบบเปิด

ของอาลีบาบา

>>>

เดือนถัดไปอาลีบาบาเปิดตัว Qwen 2.5 ซึ่งเป็นโมเดล AI หลายรูปแบบที่มีความยาวบริบท 1 ล้านเทนและหลังจากนั้นไม่นานก็เปิดตัว Qwen 2.5-max ซึ่งใช้สถาปัตยกรรมผสม (MOE) เพื่อเพิ่มประสิทธิภาพการประมวลผล

ตอนนี้ด้วย wan 2.1 มีให้บริการฟรี , Alibaba กำลังเพิ่มแรงกดดันในการแข่งขันใน บริษัท AI ซีรี่ส์

WAN 2.1 เป็นซีรีย์โมเดลการสร้างวิดีโอ AI โอเพนซอร์ซที่ออกแบบมาเพื่อประสิทธิภาพความสามารถในการปรับขนาดและการเข้าถึงได้ ขึ้นอยู่กับประสิทธิภาพการคำนวณและผลการเปรียบเทียบมันโดดเด่นเป็นทางเลือกที่คุ้มค่าสำหรับเครื่องมือวิดีโอ AI ที่เป็นกรรมสิทธิ์ในขณะที่ยังคงคุณภาพการแข่งขัน

ซีรีส์ WAN 2.1 รวมโมเดลการสร้างวิดีโอ AI สี่แบบที่เหมาะสำหรับงานและความต้องการในการคำนวณที่แตกต่างกัน รุ่น T2V-1.3B เป็นตัวแปรข้อความที่มีน้ำหนักเบาไปยังวิดีโอที่ออกแบบมาสำหรับความละเอียด 480p และสามารถทำงานได้อย่างมีประสิทธิภาพบน GPU ผู้บริโภคเช่น RTX 4090

รุ่น T2V-14B และ I2V-14B ที่มีคุณภาพสูงกว่า นอกจากนี้ WAN 2.1 ยังรองรับ Image-to-video (I2V), งานวิดีโอต่อแอนิเมชั่น (V2A) และงาน Text-to-Image (T2I), ช่วยให้การสังเคราะห์การเคลื่อนไหวที่ราบรื่นและการปรับขนาดความละเอียดที่เพิ่มขึ้น

ในขณะที่โมเดลขนาดเล็กจัดลำดับความสำคัญของประสิทธิภาพรุ่นที่ใหญ่กว่ามุ่งเน้นไปที่วิดีโอ Ai ที่สร้างขึ้นคุณภาพสูงพร้อมความต่อเนื่องของการเคลื่อนไหวและความแม่นยำของฉากที่ดีขึ้นทำให้ WAD 2.1 เป็นหนึ่งในโอเพ่นซอร์สที่หลากหลายที่สุดในการสร้างความสามารถในการเข้าถึง ประสิทธิภาพแตกต่างกันไปขึ้นอยู่กับรุ่นความละเอียดและจำนวน GPU ที่ใช้

RTX 4090 ของ Nvidia สามารถจัดการกับรุ่น T2V-1.3B ที่ความละเอียด 480p ใน 261.4 วินาทีใน GPU เดียวโดยใช้ VRAM 8.19GB เมื่อปรับขนาดเป็นแปด GPU ประสิทธิภาพจะเพิ่มขึ้นเป็น 112.3 วินาทีโดยการใช้หน่วยความจำเพิ่มขึ้นเป็น 12.2GB รุ่น T2V-14B ขั้นสูงที่ความละเอียด 720p ทำงานบน H800/H100 GPU โดยใช้เวลาในการประมวลผลลดลงจากปี 1837.9 วินาทีในหนึ่ง GPU ถึง 287.9 ​​วินาทีในแปด GPU ในขณะที่การบริโภคหน่วยความจำลดลงจาก 69.1GB เป็น 29.9GB 5494.8 วินาทีและ 76.7GB ของหน่วยความจำใน GPU เดียว อย่างไรก็ตามเมื่อใช้ GPU แปดครั้งเวลาในการประมวลผลจะลดลงเหลือ 778.2 วินาทีโดยมีหน่วยความจำสูงสุดลดลงเหลือ 32.9GB ความสามารถในการปรับขนาดของ WAN 2.1 ทำให้เป็นตัวเลือกที่น่าสนใจสำหรับผู้ใช้ที่ไม่สามารถเข้าถึงเครื่องเร่งความเร็ว AI ที่มีราคาแพงเช่นที่ใช้โดย SORA ของ OpenAI หรือ VEO ของ Google

WAN 2.1 ที่โดดเด่นเนื่องจากการเข้าถึงโอเพ่นซอร์ส ซึ่งแตกต่างจาก SORA และ VEO 2 ซึ่งยังคงเป็นกรรมสิทธิ์และต้องการโครงสร้างพื้นฐานระดับองค์กร WAN 2.1 มีให้บริการภายใต้ใบอนุญาต Apache 2.0 ทำให้นักพัฒนาและนักวิจัยสามารถรวมเข้ากับแอปพลิเคชัน AI ที่กำหนดเองโดยไม่มีข้อ จำกัด

และข้อความถึงภาพ (T2I) ข้อกำหนด VRAM ต่ำช่วยให้สามารถทำงานได้อย่างมีประสิทธิภาพใน GPU ของผู้บริโภคเช่น RTX 4090 ทำให้สามารถเข้าถึงได้ง่ายกว่ารุ่นการแข่งขันซึ่งต้องการเครื่องเร่งความเร็ว AI ที่มีราคาแพง

ข้อได้เปรียบที่สำคัญอีกประการหนึ่งคือความแม่นยำทางโลกที่มีความแม่นยำสูง นอกจากนี้ WAN 2.1 ยังได้รับการปรับให้เหมาะสมสำหรับทั้งภาษาอังกฤษและภาษาจีนทำให้สามารถเข้าถึงผู้ใช้ทั่วโลก

จุดแข็งทางเทคนิคเหล่านี้วางตำแหน่ง WAN 2.1 เป็นทางเลือกที่เหมาะสมปรับขนาดได้และมีประสิทธิภาพสูงในการสร้างวิดีโอ AI Sora

อาลีบาบาได้แบ่งปันผลลัพธ์มาตรฐานต่อไปนี้ตาม WAN-BENCH ซึ่งเป็นเฟรมเวิร์กที่ออกแบบมาเพื่อประเมินประสิทธิภาพและคุณภาพของโมเดลวิดีโอที่สร้างขึ้นโดยเฉพาะใน WAN 2.1 Series มันให้การประเมินที่มีโครงสร้างและเป็นมาตรฐานในหลายมิติของการสร้างวิดีโอช่วยให้เปรียบเทียบโดยตรงกับรุ่นที่ทันสมัยเช่น Sora, Mochi, Cogvideox และ CNTOPA ของ OpenAI WAN-BENCH วัดแง่มุมต่าง ๆ ของการสร้างวิดีโอ AI ตามเกณฑ์วัตถุประสงค์และอัตนัย

แหล่งที่มา: Alibaba

การเคลื่อนไหวของอาลีบาบาเปลี่ยนโฉมหน้าตลาดวิดีโอ AI

ภาควิดีโอ AI ได้กลายเป็นหนึ่งในพื้นที่ที่มีการแข่งขันสูงที่สุดของปัญญาประดิษฐ์ Sora ของ Openai สร้างหัวข้อข่าวสำหรับความสามารถในการสร้างเนื้อหาวิดีโอโดยละเอียดจากข้อความ แต่โมเดลยังคงอยู่เบื้องหลัง paywall

Google ผ่าน VEO 2 ได้เปิดตัวการสร้างวิดีโอ AI ความละเอียดสูง 4K โดยใช้โมเดลการสร้างวิดีโอที่ดีที่สุดในปัจจุบัน YouTube ได้รวม VEO 2 เข้ากับแพลตฟอร์มกางเกงขาสั้นยอดนิยมแล้ว

Amazon ได้ใช้เส้นทางที่แตกต่างกับ Nova AI ซึ่งรวมข้อความรูปภาพและการสร้างวิดีโอด้วยวิธีที่เหมาะสมสำหรับธุรกิจ อเมซอนยังคงสร้างรายได้จากการเข้าถึง แต่ความพร้อมใช้งานที่เพิ่มขึ้นของโมเดล AI ฟรีสามารถบังคับให้มีการปรับเปลี่ยนกลยุทธ์การกำหนดราคาทั่วทั้งอุตสาหกรรม

Gen-3 Alpha Turbo API ของรันเวย์เป็นอีกตัวอย่างหนึ่งของการพัฒนาแบบจำลองวิดีโอ AI ด้วยการนำเสนอการประมวลผลที่เร็วขึ้นและเครื่องมือที่เข้าถึงได้มากขึ้นรันเวย์ได้ดึงดูดผู้สร้างอิสระและ บริษัท ผู้ผลิต หากทางเลือกโอเพนซอร์ซเช่น WAN 2.1 สามารถจับคู่คุณภาพระดับนี้ได้อาจนำไปสู่การเปลี่ยนแปลงขั้นพื้นฐานในการกระจายเทคโนโลยีวิดีโอ AI

ข้อกังวลด้านกฎระเบียบและผลกระทบทางจริยธรรม

รัฐบาลกำลังเคลื่อนไหวเพื่อควบคุมเนื้อหาที่สร้างขึ้นโดยสหภาพยุโรปโดยมีการบังคับใช้มาตรการโปร่งใสที่เข้มงวดขึ้นและผลักดันการทำเครื่องหมายลายน้ำดิจิตอลในสื่อ Ai ที่สร้างขึ้น

ในการตอบสนอง บริษัท เช่น Google และ Meta ได้ใช้เครื่องมือเช่น synthid และซีลวิดีโอทำให้มั่นใจได้ว่าเนื้อหาที่สร้างขึ้นสามารถติดตามได้แม้หลังจากการดัดแปลง

bytedance ได้เผชิญหน้ากับการตรวจสอบเมื่อไม่นานมานี้ ความกังวลเกี่ยวกับเนื้อหาที่สร้างขึ้นโดย AI นั้นเน้นถึงความสำคัญของคุณสมบัติด้านความปลอดภัย แต่อาลีบาบายังไม่ได้ประกาศว่าจะรวมการป้องกันที่คล้ายกันเข้ากับ WAN 2.1

วิธีการที่อสังหาริมทรัพย์ AI สามารถเปลี่ยนอุตสาหกรรมได้อย่างไร

มันเป็นไปตามแนวโน้มที่เห็นในการสร้างภาพที่โมเดลโอเพ่นซอร์สเช่นเสถียรภาพการแพร่กระจายของ AI ของ AI ได้ขัดขวางการครอบงำของระบบปิดเช่น Dall · E ของ OpenAi หากนักพัฒนายอมรับ WAN 2.1 ในระดับนั้นอาจกดดัน บริษัท เช่น OpenAI และ Google เพื่อพิจารณารูปแบบเชิงพาณิชย์ของพวกเขาหรือเสี่ยงต่อการสูญเสียส่วนแบ่งการตลาดในเครื่องมือวิดีโอ AI

การตัดสินใจของอาลีบาบา ด้วยการให้การเข้าถึงที่ไม่ จำกัด จะช่วยลดอุปสรรคสำหรับนักพัฒนาและธุรกิจที่ต้องการรวมการสร้างวิดีโอ AI เข้ากับผลิตภัณฑ์ของพวกเขา ความพร้อมใช้งานของโมเดลอาจบังคับให้คู่แข่งพิจารณาแนวทางของพวกเขาโดยเฉพาะอย่างยิ่งเมื่อ บริษัท ชั่งน้ำหนักผลประโยชน์ของการเปิดกว้างต่อความเสี่ยงของการสูญเสียการควบคุมเทคโนโลยีที่เป็นกรรมสิทธิ์

Categories: IT Info