แผนกวิจัย AI ของ Meta ได้เปิดตัว Omnilingual ASR ซึ่งเป็นระบบรู้จำคำพูดแบบโอเพ่นซอร์สที่ทรงพลังซึ่งรองรับมากกว่า 1,600 ภาษา

โครงการนี้มีเป้าหมายเพื่อสร้างเครื่องมือถอดเสียงแบบสากล โดยให้การสนับสนุน AI สำหรับ 500 ภาษาเป็นครั้งแรก พัฒนาโดยทีมวิจัย AI ขั้นพื้นฐาน (FAIR) ของ Meta โมเดลดังกล่าวมีให้บริการภายใต้ใบอนุญาตที่ได้รับอนุญาตสำหรับทั้งการวิจัยและการใช้งานเชิงพาณิชย์

ความคิดริเริ่มนี้พยายามที่จะปิดการแบ่งแยกทางดิจิทัลด้วยการทำให้เทคโนโลยีคำพูดเป็นข้อความคุณภาพสูงสามารถเข้าถึงได้โดยชุมชนภาษาที่ด้อยโอกาสทั่วโลก ชุดนี้ประกอบด้วยรุ่นขนาดต่างๆ ตั้งแต่รุ่นน้ำหนักเบาสำหรับอุปกรณ์เคลื่อนที่ไปจนถึงรุ่นขนาดใหญ่เพื่อความแม่นยำสูงสุด

การก้าวกระโดดอย่างควอนตัมในด้านความครอบคลุมของภาษา

ระดับของ ASR ในทุกภาษาแสดงถึงก้าวสำคัญสำหรับเทคโนโลยีเสียงพูด การรองรับภาษามากกว่า 1,600 ภาษาช่วยขยายการเข้าถึงทั่วโลกได้อย่างมาก โดยเฉพาะอย่างยิ่งเมื่อเปรียบเทียบกับระบบกรรมสิทธิ์ชั้นนำอย่าง Whisper ของ OpenAI ซึ่งครอบคลุมประมาณ 100 ภาษา

สำหรับชุมชนภาษาหลายร้อยแห่ง นี่นับเป็นครั้งแรกที่คำพูดของพวกเขาสามารถถอดความโดยระบบ AI ซึ่งเปิดโอกาสใหม่สำหรับการสื่อสาร การศึกษา และการอนุรักษ์ดิจิทัล

เพื่อให้บรรลุความกว้างนี้ ทีมงาน Meta’s FAIR จึงได้บูรณาการ ชุดข้อมูลที่เปิดเผยต่อสาธารณะพร้อมการบันทึกที่มาจากชุมชนที่รวบรวมผ่านความร่วมมือกับองค์กรต่างๆ เช่น Common Voice ของ Mozilla

ความพยายามในการทำงานร่วมกันนี้มีความสำคัญอย่างยิ่งในการเข้าถึงภาษาที่มีรอยทางดิจิทัลเพียงเล็กน้อยหรือไม่มีเลย ในการขับเคลื่อนนวัตกรรมเพิ่มเติม Meta ยังได้เปิดตัว Omnilingual ASR Corpus ซึ่งเป็นคอลเลกชันคำพูดที่ถอดเสียงไม่ซ้ำใครใน 350 ภาษาที่ด้อยโอกาส ภายใต้ใบอนุญาต CC-BY ชุดข้อมูลนี้มีส่วนสนับสนุนสำคัญต่อชุมชนการวิจัยทั่วโลก

การประกาศของ Meta เน้นย้ำถึงประสิทธิภาพที่แข็งแกร่งของระบบในภูมิทัศน์ทางภาษาอันกว้างใหญ่นี้ LLM-ASR ซึ่งเป็นโมเดลหลักที่มีพารามิเตอร์ 7 พันล้านพารามิเตอร์ มีอัตราข้อผิดพลาดของอักขระ (CER) ต่ำกว่า 10 สำหรับ 78% ของภาษาที่รองรับ

ความแม่นยำระดับนี้ทำให้เป็นเครื่องมือที่ใช้งานได้จริงสำหรับการใช้งานที่หลากหลาย ก้าวไปไกลกว่ากรณีการใช้งานเชิงทดลองไปสู่การใช้งานจริง

การขยายชุมชนของโอเพนซอร์สและพลังสถาปัตยกรรม LLM

ต่างจากระบบ ASR แบบดั้งเดิมที่ต้องมีการปรับแต่งอย่างละเอียดอย่างกว้างขวาง Omnilingual ASR แนะนำฟีเจอร์ใหม่”Bring Your Own Language”ความสามารถนี้ได้รับแรงบันดาลใจจากโมเดลภาษาขนาดใหญ่ ช่วยให้ผู้ใช้สามารถเพิ่มการรองรับภาษาใหม่ทั้งหมดโดยการจัดหาตัวอย่างเสียงและข้อความที่จับคู่กันเพียงไม่กี่ตัวอย่าง

แนวทางการเรียนรู้ในบริบทดังกล่าวช่วยลดความจำเป็นในการใช้ชุดข้อมูลขนาดใหญ่หรือความเชี่ยวชาญเฉพาะด้าน ช่วยให้ชุมชนสามารถปรับใช้เทคโนโลยีให้ตรงกับความต้องการของตนเองได้

ความยืดหยุ่นนี้มีรากฐานมาจากสถาปัตยกรรมขั้นสูงของระบบ โดยจับคู่ตัวเข้ารหัสเสียงพูด 7B wav2vec 2.0 ที่ขยายขนาดขึ้น ซึ่งเรียนรู้การนำเสนอที่หลากหลายจากเสียงดิบ พร้อมด้วยตัวถอดรหัสที่ใช้หม้อแปลงแบบเดียวกับที่ใช้ใน LLM

การออกแบบนี้เป็นสิ่งที่ทำให้โมเดลสามารถสรุปเป็นภาษาใหม่ได้จากตัวอย่างบางส่วน ด้วยการเปิดตัวโมเดลภายใต้ใบอนุญาต Apache 2.0 นั้น Meta ช่วยให้นักพัฒนาและธุรกิจสามารถสร้างและรวมเทคโนโลยีนี้เข้ากับผลิตภัณฑ์เชิงพาณิชย์ได้อย่างอิสระ

โครงการทั้งหมดสร้างขึ้นบนเฟรมเวิร์ก fairseq2 แบบโอเพ่นซอร์สของ FAIR เพื่อให้มั่นใจว่ามีการบูรณาการอย่างลึกซึ้งกับระบบนิเวศ PyTorch

ภูมิทัศน์การแข่งขันและอนาคต ผลกระทบ

การเปิดตัวของ Meta ปรับโฉมช่องการรู้จำคำพูดแบบโอเพนซอร์สอย่างมีกลยุทธ์ เมื่อต้นปีที่ผ่านมา โมเดล Parakeet ของ Nvidia คว้าตำแหน่งสูงสุดในกระดานผู้นำสาธารณะด้วยความเร็วและความแม่นยำที่น่าประทับใจในการวัดประสิทธิภาพภาษาอังกฤษ

อย่างไรก็ตาม Omnilingual ASR เปลี่ยนการมุ่งเน้นจากประสิทธิภาพภาษาเดียวไปเป็นขนาดหลายภาษาขนาดใหญ่และการเข้าถึงได้ โมเดลการขยายตัวที่ขับเคลื่อนโดยชุมชนนำเสนอกระบวนทัศน์ที่แตกต่างจากระบบที่ได้รับการอัปเดตจากส่วนกลางที่คงที่มากกว่าซึ่งครองพื้นที่นี้

ผลกระทบที่อาจเกิดขึ้นสำหรับนักพัฒนาและอุตสาหกรรมต่างๆ นั้นมีอย่างมาก ใบอนุญาตที่อนุญาตเปิดประตูสำหรับแอปพลิเคชันเชิงพาณิชย์ใหม่ๆ ในการบริการลูกค้าทั่วโลก การวิเคราะห์เนื้อหาสื่อ และเครื่องมือการเข้าถึงสำหรับประชากรด้อยโอกาส

ในสาขาต่างๆ เช่น การศึกษาและภาษาศาสตร์ เทคโนโลยีนี้สามารถใช้เพื่อสร้างเครื่องช่วยการเรียนรู้และรักษาภาษาที่ใกล้สูญพันธุ์ได้

ด้วยการนำเสนอตระกูลโมเดลที่หลากหลาย ตั้งแต่รุ่น 300M น้ำหนักเบาไปจนถึงรุ่น 7B ที่ทรงพลัง Meta กำลังเตรียมชุมชนด้วยเครื่องมือที่ปรับแต่งสำหรับกรณีการใช้งานที่หลากหลาย ตั้งแต่ แอปพลิเคชันบนอุปกรณ์เพื่อการวิจัยที่มีความแม่นยำสูง การเปิดตัวครั้งนี้ถือเป็นก้าวสำคัญสู่ระบบการถอดเสียงที่เป็นสากลอย่างแท้จริง

Categories: IT Info