Microsoft ได้เปิดตัว Vibevoice ซึ่งเป็นโมเดล AI โอเพนซอร์ซใหม่ที่สร้างเสียงที่เป็นธรรมชาติและยาวพร้อมลำโพงหลายตัว ประกาศในช่วงปลายเดือนสิงหาคมเครื่องมือสามารถสร้างการพูดได้มากถึง 90 นาทีโดยใช้เสียงสี่เสียงที่แตกต่างกันทำให้เหมาะสำหรับการสร้างต้นแบบพอดคาสต์หรือวัสดุการฝึกอบรม
ซึ่งแตกต่างจากรุ่นใหญ่จำนวนมาก Vibevoice มีขนาดเล็กพอสำหรับการใช้งานวิจัยบนคอมพิวเตอร์มาตรฐาน เพื่อป้องกันการใช้ในทางที่ผิด Microsoft ได้สร้างคุณสมบัติด้านความปลอดภัยเช่น AI Disclaimers AIDIBLE และ A ค่อนข้างมีประสิทธิภาพ สิ่งนี้ช่วยให้สามารถใช้งานฮาร์ดแวร์เกรดผู้บริโภคได้การเข้าถึงประชาธิปไตยสำหรับนักวิจัย เฟรมเวิร์กขึ้นอยู่กับรูปแบบการแพร่กระจายครั้งต่อไปเพื่อสร้างเสียงที่มีความเที่ยงตรงสูง
ตามเอกสารทางเทคนิค Vibevoice ใช้โทเคนิเซอร์การพูดต่อเนื่องที่อัตราเฟรมต่ำ 7.5 Hz วิธีการนี้รักษาคุณภาพเสียงในขณะที่เพิ่มประสิทธิภาพการคำนวณซึ่งเป็นปัจจัยสำคัญในการประมวลผลลำดับที่ยาวนานโดยไม่มีข้อกำหนดด้านฮาร์ดแวร์ขนาดใหญ่
เพื่อจัดการการไหลของการสนทนา Vibevoice ได้รับการฝึกฝนโดยใช้โอเพ่นซอร์ส QWEN2.5 LLM สิ่งนี้จะช่วยปรับการเลี้ยวตามธรรมชาติและรักษาความสอดคล้องของลำโพงตลอดระยะเวลาที่ยาวนาน การใช้งานที่มีศักยภาพมีตั้งแต่การสร้างเนื้อหาการศึกษาที่สามารถเข้าถึงได้ไปจนถึงการโต้ตอบตัวละครที่ซับซ้อนสำหรับวิดีโอเกม
guardrails ในตัวสำหรับ AI โอเพนซอร์ซที่รับผิดชอบ
การตระหนักถึงศักยภาพในการใช้งานในทางที่ผิด บริษัท กำลังใช้ท่าทางเชิงรุกเกี่ยวกับการปรับใช้ AI ที่รับผิดชอบโดยเฉพาะอย่างยิ่งสำหรับเครื่องมือโอเพนซอร์ซที่มีประสิทธิภาพที่สามารถเลียนแบบการสนทนาของมนุษย์
ไฟล์เสียงทุกไฟล์ที่สร้างขึ้นโดยแบบจำลองนั้นรวมถึงการปฏิเสธความรับผิดชอบ คลิปเสียงสั้น ๆ นี้ระบุอย่างชัดเจนว่าเนื้อหาถูกสร้างขึ้นโดย AI นอกจากนี้แต่ละไฟล์มีลายน้ำดิจิตอลที่ซ่อนอยู่ซึ่งช่วยให้ต้นกำเนิดของเสียงถูกย้อนกลับไปยังรุ่น
ข้อกำหนดการออกใบอนุญาตของ Microsoft กำหนดข้อ จำกัด ที่เข้มงวด แบบจำลองนี้ถูกกันออกไปจากการใช้งานใด ๆ ที่เกี่ยวข้องกับการเลียนแบบการสร้างหรือการแพร่กระจายของการบิดเบือนหรือการแปลงเสียงแบบเรียลไทม์สำหรับ deepfakes Guardrails เหล่านี้มีจุดมุ่งหมายเพื่อลดความเสี่ยงในขณะที่ยังคงส่งเสริมการวิจัยที่เปิดกว้าง
นำทางภูมิทัศน์ AI เสียงที่แออัด
Vibevoice เข้าสู่ตลาดที่มีการแข่งขันสูง ความสามารถแบบหลายลำโพงที่มีความสามารถยาวนานเป็นทางเลือกที่สูงขึ้นสำหรับเครื่องมือที่มีอยู่เช่นสรุปเสียงโน้ตบุ๊กสองเสียงของ Google การเปิดตัวตอกย้ำการแข่งขันทั่วทั้งอุตสาหกรรมที่กว้างขึ้นไปสู่เทคโนโลยีเสียงสังเคราะห์ที่สมบูรณ์แบบ
ห้องปฏิบัติการ AI ที่สำคัญล้วน แต่เป็นการแย่งชิงอำนาจ เมื่อเร็ว ๆ นี้ Openai ได้อัพเกรดความสามารถทางเสียงของตัวเองด้วย API แบบเรียลไทม์ ในขณะเดียวกัน บริษัท ต่างๆเช่นมานุษยวิทยา Mistral และ Amazon ยังได้เปิดตัวโมเดลที่ทรงพลังซึ่งแต่ละรายการมีการกำหนดเป้าหมายกรณีการใช้งานที่แตกต่างกันจากผู้ช่วย AI ไปจนถึงโซลูชั่นองค์กร
การเปิดตัวนี้เป็นส่วนหนึ่งของ Pivot เชิงกลยุทธ์ที่ใหญ่ขึ้นสำหรับ Microsoft มันเป็นไปตามการเปิดเผยล่าสุดของรุ่นอื่น ๆ ใน บริษัท เช่น Mai-1 และ Mai-Voice-1 สัญญาณผลักดันนี้มีเจตนาที่ชัดเจนในการสร้าง AI ที่เป็นกรรมสิทธิ์ลดการพึ่งพาหุ้นส่วนกับ Openai
เกี่ยวกับ Mustafa Suleyman Hovever CEO ของ Microsoft AI ที่ระบุว่า ยืนยันความมุ่งมั่นระยะยาวของ บริษัท โดยกล่าวว่า“ เรามีแผนงานห้าปีที่เราลงทุนในไตรมาสหลังจากไตรมาสดังนั้นฉันคิดว่ามันจะดำเนินต่อไป”