Meta Platforms ได้ยกระดับการจำลองเสียงด้วย การเปิดตัว Audiobox ซึ่งเป็นโมเดลการวิจัยใหม่ กล่องเสียง ซึ่งเป็นรากฐานใหม่สำหรับการสร้างเสียง ช่วยให้สามารถเลียนแบบลักษณะเสียงร้องที่เป็นเอกลักษณ์ของบุคคล และสร้างเอฟเฟกต์เสียงโดยใช้ภาษาที่เป็นธรรมชาติ พัฒนาโดยห้องปฏิบัติการวิจัย AI ของ Facebook โมเดลนี้ต่อยอดจากโครงการก่อนหน้าของพวกเขา นั่นคือ Voicebox

เทคโนโลยีที่เป็นนวัตกรรมสำหรับการโคลนเสียง

ผลิตโดย ห้องปฏิบัติการ Meta’s FAIR Audiobox แสดงให้เห็นถึงความก้าวหน้าในเทคโนโลยีการโคลนเสียง ช่วยอำนวยความสะดวกในการสร้างเสียงและภาพเสียงที่เหมือนจริง โดยใช้เสียงอินพุตและข้อความแจ้ง ด้วยการบันทึกเสียง ผู้ใช้สามารถพิมพ์ประโยคที่ต้องการฟังได้ และ Audiobox จะจำลองประโยคเหล่านี้โดยใช้ลายเซ็นเสียงที่คัดลอกมา นอกจากนี้ สามารถสร้างสไตล์เสียงใหม่ได้ง่ายๆ โดยการอธิบายลักษณะเสียงที่ต้องการผ่านข้อความ

ความคิดริเริ่มนี้สะท้อนให้เห็นถึงความสนใจอย่างต่อเนื่องในเสียงที่สร้างโดย AI ทั่วทั้งอุตสาหกรรม โดยบริษัทอย่าง ElevenLabs ได้รับการลงทุนจำนวนมากสำหรับงานของพวกเขา ในภาคส่วน อย่างไรก็ตาม Audiobox ยกระดับสิ่งนี้ไปอีกระดับด้วยพื้นฐานการเรียนรู้แบบมีผู้ดูแลด้วยตนเอง (SSL) ซึ่งเป็นเทคนิคที่ช่วยให้ AI เรียนรู้และติดป้ายกำกับข้อมูลเสียงโดยไม่มีคำแนะนำที่ชัดเจน

แนวทางของ Meta เพื่อการเรียนรู้แบบมีผู้ดูแลด้วยตนเอง

โมเดล SSL ที่รองรับ Audiobox ละทิ้งความต้องการข้อมูลที่ติดป้ายกำกับ เช่น เป็นการถอดเสียงหรือคำบรรยาย โดยใช้ประโยชน์จากเสียงที่ไม่มีป้ายกำกับจำนวนมากแทน ทีมงาน FAIR ฝึกฝนโมเดลนี้ด้วยคำพูดมากกว่า 160,000 ชั่วโมง โดยส่วนใหญ่เป็นภาษาอังกฤษ ซึ่งครอบคลุมการบันทึกที่หลากหลาย รวมถึงหนังสือเสียง พอดแคสต์ และการบันทึกภาพในป่า และอื่นๆ อีกมากมาย ฐานข้อมูลคำพูดมาจากกว่า 150 ประเทศและครอบคลุมกว่า 200 ภาษา จึงมีจุดมุ่งหมายที่จะรักษาความครอบคลุมและความเป็นตัวแทนในผลลัพธ์ที่สร้างขึ้น

แม้จะมีขอบเขตข้อมูลกว้าง แหล่งที่มาของข้อมูลนี้ยังคงเป็นประเด็นสำคัญในการพิจารณา โดยเฉพาะอย่างยิ่งเมื่อปัญหาเกี่ยวกับความยินยอมและลิขสิทธิ์ได้นำไปสู่การฟ้องร้องหน่วยงาน AI สำหรับการใช้งานสื่อการฝึกอบรมโดยไม่ได้รับอนุญาต Meta ได้รับการติดต่อเพื่อขอคำชี้แจงในด้านนี้และจะให้ข้อมูลอัปเดตตามนั้น

ข้อจำกัดในปัจจุบันและอนาคตในอนาคต

การเปิดตัวของ Audiobox ประกอบด้วยการสาธิตเชิงโต้ตอบที่หลากหลาย แสดงให้เห็นถึงความสามารถในปัจจุบันของเทคโนโลยี ผู้ใช้จะได้รับเชิญให้บันทึกและโคลนเสียงของพวกเขา สร้างสไตล์เสียงใหม่ และแม้แต่จำลองเอฟเฟกต์เสียง เช่น สุนัขเห่า อย่างไรก็ตาม การสาธิตเหล่านี้มาพร้อมกับข้อจำกัดความรับผิดชอบ: สิ่งเหล่านี้ไม่ได้มีไว้สำหรับใช้ในเชิงพาณิชย์และไม่สามารถใช้ได้สำหรับผู้อยู่อาศัยในรัฐอิลลินอยส์หรือเท็กซัสเนื่องจากกฎหมายของรัฐเฉพาะ

ไม่เหมือนกับเครื่องมือ AI รุ่นก่อน ๆ จาก Meta, Audiobox ไม่ใช่เครื่องมือแบบเปิด การเสนอแหล่งที่มาและการสอบถามเกี่ยวกับการเปิดตัวที่เป็นไปได้ในฐานะโอเพ่นซอร์สกำลังรอการตอบกลับ แม้ว่ากรณีการใช้งานจะถูกจำกัดด้วยข้อจำกัดในปัจจุบัน ความก้าวหน้าอย่างรวดเร็วของเทคโนโลยี AI ชี้ให้เห็นว่าเวอร์ชันเชิงพาณิชย์อาจพร้อมใช้งานในอนาคตอันใกล้ ไม่ว่าจะจาก Meta หรือบริษัทอื่นๆ ในพื้นที่

Categories: IT Info