แพลตฟอร์ม Meta เปิดตัว Audiobox ซึ่งเป็นโมเดลการวิจัยการโคลนเสียง

Meta Platforms ได้ยกระดับการจำลองเสียงด้วย การเปิดตัว Audiobox ซึ่งเป็นโมเดลการวิจัยใหม่ กล่องเสียง ซึ่งเป็นรากฐานใหม่สำหรับการสร้างเสียง ช่วยให้สามารถเลียนแบบลักษณะเสียงร้องที่เป็นเอกลักษณ์ของบุคคล และสร้างเอฟเฟกต์เสียงโดยใช้ภาษาที่เป็นธรรมชาติ พัฒนาโดยห้องปฏิบัติการวิจัย AI ของ Facebook โมเดลนี้ต่อยอดจากโครงการก่อนหน้าของพวกเขา นั่นคือ Voicebox

เทคโนโลยีที่เป็นนวัตกรรมสำหรับการโคลนเสียง

ผลิตโดย ห้องปฏิบัติการ Meta’s FAIR Audiobox แสดงให้เห็นถึงความก้าวหน้าในเทคโนโลยีการโคลนเสียง ช่วยอำนวยความสะดวกในการสร้างเสียงและภาพเสียงที่เหมือนจริง โดยใช้เสียงอินพุตและข้อความแจ้ง ด้วยการบันทึกเสียง ผู้ใช้สามารถพิมพ์ประโยคที่ต้องการฟังได้ และ Audiobox จะจำลองประโยคเหล่านี้โดยใช้ลายเซ็นเสียงที่คัดลอกมา นอกจากนี้ สามารถสร้างสไตล์เสียงใหม่ได้ง่ายๆ โดยการอธิบายลักษณะเสียงที่ต้องการผ่านข้อความ

ความคิดริเริ่มนี้สะท้อนให้เห็นถึงความสนใจอย่างต่อเนื่องในเสียงที่สร้างโดย AI ทั่วทั้งอุตสาหกรรม โดยบริษัทอย่าง ElevenLabs ได้รับการลงทุนจำนวนมากสำหรับงานของพวกเขา ในภาคส่วน อย่างไรก็ตาม Audiobox ยกระดับสิ่งนี้ไปอีกระดับด้วยพื้นฐานการเรียนรู้แบบมีผู้ดูแลด้วยตนเอง (SSL) ซึ่งเป็นเทคนิคที่ช่วยให้ AI เรียนรู้และติดป้ายกำกับข้อมูลเสียงโดยไม่มีคำแนะนำที่ชัดเจน

แนวทางของ Meta เพื่อการเรียนรู้แบบมีผู้ดูแลด้วยตนเอง

โมเดล SSL ที่รองรับ Audiobox ละทิ้งความต้องการข้อมูลที่ติดป้ายกำกับ เช่น เป็นการถอดเสียงหรือคำบรรยาย โดยใช้ประโยชน์จากเสียงที่ไม่มีป้ายกำกับจำนวนมากแทน ทีมงาน FAIR ฝึกฝนโมเดลนี้ด้วยคำพูดมากกว่า 160,000 ชั่วโมง โดยส่วนใหญ่เป็นภาษาอังกฤษ ซึ่งครอบคลุมการบันทึกที่หลากหลาย รวมถึงหนังสือเสียง พอดแคสต์ และการบันทึกภาพในป่า และอื่นๆ อีกมากมาย ฐานข้อมูลคำพูดมาจากกว่า 150 ประเทศและครอบคลุมกว่า 200 ภาษา จึงมีจุดมุ่งหมายที่จะรักษาความครอบคลุมและความเป็นตัวแทนในผลลัพธ์ที่สร้างขึ้น

แม้จะมีขอบเขตข้อมูลกว้าง แหล่งที่มาของข้อมูลนี้ยังคงเป็นประเด็นสำคัญในการพิจารณา โดยเฉพาะอย่างยิ่งเมื่อปัญหาเกี่ยวกับความยินยอมและลิขสิทธิ์ได้นำไปสู่การฟ้องร้องหน่วยงาน AI สำหรับการใช้งานสื่อการฝึกอบรมโดยไม่ได้รับอนุญาต Meta ได้รับการติดต่อเพื่อขอคำชี้แจงในด้านนี้และจะให้ข้อมูลอัปเดตตามนั้น

ข้อจำกัดในปัจจุบันและอนาคตในอนาคต

การเปิดตัวของ Audiobox ประกอบด้วยการสาธิตเชิงโต้ตอบที่หลากหลาย แสดงให้เห็นถึงความสามารถในปัจจุบันของเทคโนโลยี ผู้ใช้จะได้รับเชิญให้บันทึกและโคลนเสียงของพวกเขา สร้างสไตล์เสียงใหม่ และแม้แต่จำลองเอฟเฟกต์เสียง เช่น สุนัขเห่า อย่างไรก็ตาม การสาธิตเหล่านี้มาพร้อมกับข้อจำกัดความรับผิดชอบ: สิ่งเหล่านี้ไม่ได้มีไว้สำหรับใช้ในเชิงพาณิชย์และไม่สามารถใช้ได้สำหรับผู้อยู่อาศัยในรัฐอิลลินอยส์หรือเท็กซัสเนื่องจากกฎหมายของรัฐเฉพาะ

ไม่เหมือนกับเครื่องมือ AI รุ่นก่อน ๆ จาก Meta, Audiobox ไม่ใช่เครื่องมือแบบเปิด การเสนอแหล่งที่มาและการสอบถามเกี่ยวกับการเปิดตัวที่เป็นไปได้ในฐานะโอเพ่นซอร์สกำลังรอการตอบกลับ แม้ว่ากรณีการใช้งานจะถูกจำกัดด้วยข้อจำกัดในปัจจุบัน ความก้าวหน้าอย่างรวดเร็วของเทคโนโลยี AI ชี้ให้เห็นว่าเวอร์ชันเชิงพาณิชย์อาจพร้อมใช้งานในอนาคตอันใกล้ ไม่ว่าจะจาก Meta หรือบริษัทอื่นๆ ในพื้นที่

แพลตฟอร์ม Meta เปิดตัว Audiobox ซึ่งเป็นโมเดลการวิจัยการโคลนเสียง

Published by All Things Windows on December 12, 2023

เทคโนโลยีที่เป็นนวัตกรรมสำหรับการโคลนเสียง

แนวทางของ Meta เพื่อการเรียนรู้แบบมีผู้ดูแลด้วยตนเอง

ข้อจำกัดในปัจจุบันและอนาคตในอนาคต

IT Info

Mixtral 8x7B ของ Mistral กลายเป็นโมเดล AI แบบโอเพ่นซอร์สที่ก้าวล้ำ

IT Info

จากข้อความสู่งานศิลปะ: วิธีสร้างภาพด้วย Cocreator AI ของ Microsoft Paint

IT Info

10 การแก้ไขสำหรับการดับเบิลคลิกเมาส์เมื่อคลิกครั้งเดียวบน Windows

แพลตฟอร์ม Meta เปิดตัว Audiobox ซึ่งเป็นโมเดลการวิจัยการโคลนเสียง

Published by All Things Windows on December 12, 2023

เทคโนโลยีที่เป็นนวัตกรรมสำหรับการโคลนเสียง

แนวทางของ Meta เพื่อการเรียนรู้แบบมีผู้ดูแลด้วยตนเอง

ข้อจำกัดในปัจจุบันและอนาคตในอนาคต

Related Posts

IT Info

Mixtral 8x7B ของ Mistral กลายเป็นโมเดล AI แบบโอเพ่นซอร์สที่ก้าวล้ำ

IT Info

จากข้อความสู่งานศิลปะ: วิธีสร้างภาพด้วย Cocreator AI ของ Microsoft Paint

IT Info

10 การแก้ไขสำหรับการดับเบิลคลิกเมาส์เมื่อคลิกครั้งเดียวบน Windows