บริษัทสตาร์ทอัพด้านเสียงด้วย AI ElevenLabs เปิดตัวโมเดลคำพูดเป็นข้อความแบบเรียลไทม์ Scribe v2 และ Scribe v2 ที่ออกแบบมาสำหรับแอปพลิเคชันโต้ตอบแบบสด
Scribe v2 มอบความแม่นยำสูงสุดที่เป็นไปได้ในการถอดเสียง โดยจัดลำดับความสำคัญของความเที่ยงตรงในการถอดเสียง เช่น เนื้อหาที่บันทึกไว้หรือการเก็บถาวรที่แม่นยำ
ในทางกลับกัน Scribe v2 Realtime ได้รับการปรับให้เหมาะสมสำหรับการถอดเสียงแบบเรียลไทม์ และมอบความเร็วระดับแนวหน้าของอุตสาหกรรมด้วย เวลาแฝงต่ำเป็นพิเศษประมาณ 150 มิลลิวินาที ในขณะที่ยังคงความแม่นยำสูง
ตามข้อมูลของบริษัท Scribe v2 Realtime ในลอนดอน ช่วยให้ตัวแทน AI การสนทนาที่เป็นธรรมชาติมากขึ้น ผู้ช่วยการประชุม และคำบรรยายแบบเรียลไทม์ เครื่องมือใหม่นี้พร้อมให้ใช้งานแล้วผ่าน API โดยมีจุดมุ่งหมายเพื่อมอบความแม่นยำระดับมนุษย์ใน 90 ภาษา
การเปิดตัวครั้งนี้ช่วยเสริมความแข็งแกร่งให้กับการผลักดันของ ElevenLabs เข้าสู่ตลาดองค์กร โดยมอบองค์ประกอบที่สำคัญสำหรับนักพัฒนาที่สร้างประสบการณ์ที่ขับเคลื่อนด้วยเสียงที่ตอบสนอง
ความเคลื่อนไหวดังกล่าวเกิดขึ้นหลังจากการประเมินมูลค่าของบริษัทพุ่งสูงขึ้นเป็น 6.6 พันล้านดอลลาร์สหรัฐ ซึ่งส่งสัญญาณถึงการขยายตัวอย่างรวดเร็วในพื้นที่ AI ที่สร้างการแข่งขันได้
มาตรฐานใหม่สำหรับเรียลไทม์ การถอดเสียง
ออกแบบมาโดยเฉพาะสำหรับสภาพแวดล้อมแบบโต้ตอบสด Scribe v2 เรียลไทม์จัดการกับปัญหาคอขวดที่สำคัญใน AI เสียง: ความเร็ว
บริษัทเน้นย้ำเวลาแฝงในการถอดเสียงต่ำกว่า 150 มิลลิวินาที ซึ่งเป็นตัวชี้วัดประสิทธิภาพหลักสำหรับการเปิดใช้งานการสนทนาที่ราบรื่นเหมือนมนุษย์
[เนื้อหาที่ฝังไว้]
ความสามารถดังกล่าวมีความสำคัญอย่างยิ่งสำหรับแอปพลิเคชันที่การตอบสนองในทันทีไม่สามารถต่อรองได้ คุณลักษณะเฉพาะที่มีส่วนทำให้เกิดความเร็วนี้คือ”เวลาแฝงเชิงลบ”ซึ่งโมเดลคาดการณ์คำและเครื่องหมายวรรคตอนถัดไป ซึ่งช่วยลดความล่าช้าในการรับรู้ได้อีก ตามข้อมูลของบริษัท
นอกเหนือจากความเร็วแล้ว ElevenLabs ยังนำเสนอความแม่นยำสูงของโมเดลในกว่า 90 ภาษา จากข้อมูลของหน้าผลิตภัณฑ์ Scribe v2 Realtime มีประสิทธิภาพเหนือกว่าคู่แข่งหลักๆ หลายรายในการวัดประสิทธิภาพภายใน รวมถึง Gemini Flash 2.5 ของ Google, GPT-4o Mini ของ OpenAI และ Nova 3 ของ Deepgram
ElevenLabs Scribe v2 ผลลัพธ์การวัดประสิทธิภาพ FLEURS แบบเรียลไทม์ (ที่มา: ElevenLabs)
บริษัทยังคงมีแนวโน้มแนวโน้มประสิทธิภาพอย่างต่อเนื่อง โดยก่อนหน้านี้ ข้อมูลที่เผยแพร่ ที่แสดงโมเดล Scribe รุ่นแรกมีอัตราข้อผิดพลาดของคำต่ำกว่าข้อเสนอของ OpenAI ทำให้เกิดประวัติการแข่งขัน
ขับเคลื่อนการสนทนารุ่นต่อไป AI
ในตลาดที่เต็มไปด้วยบริการถอดเสียง ElevenLabs เดิมพันความเร็วและความแม่นยำในการจับภาพกลุ่มองค์กรที่สร้างอินเทอร์เฟซเสียงแห่งยุคถัดไป กรณีการใช้งานหลักมุ่งเน้นไปที่ AI การสนทนา ซึ่งเวลาแฝงต่ำทำให้มีการโต้ตอบที่ลื่นไหลมากขึ้นในตัวแทนเสียงสำหรับการขายหรือการสนับสนุน
สำหรับผู้ใช้ปลายทาง สิ่งนี้แปลเป็นการสนทนาที่มีการหยุดชั่วคราวที่น่าอึดอัดใจน้อยลง ทำให้การโต้ตอบกับระบบอัตโนมัติรู้สึกเป็นธรรมชาติมากขึ้น
โมเดลใหม่ได้รวมเข้ากับ ตัวแทน ElevenLabs ของบริษัทแล้ว แพลตฟอร์ม ช่วยให้นักพัฒนาปรับใช้ตัวแทนที่ขับเคลื่อนโดยเครื่องมือถอดเสียงที่เร็วขึ้นได้ทันที
การบูรณาการที่ราบรื่นนี้สอดคล้องกับวิสัยทัศน์ระยะยาวของบริษัท Mati Staniszewski ซีอีโอกล่าวว่า”เสียงคืออินเทอร์เฟซแห่งอนาคต และเรากำลังสร้างเพื่อให้แน่ใจว่า ElevenLabs ยังคงเป็นเสียงของเทคโนโลยีต่อไป”
ด้วยการจัดหาเครื่องมือพื้นฐานสำหรับการทำความเข้าใจเสียงแบบเรียลไทม์ ElevenLabs มีเป้าหมายที่จะกลายเป็นส่วนที่ขาดไม่ได้ของระบบนิเวศซอฟต์แวร์ที่ขับเคลื่อนด้วยเสียงที่กำลังเติบโต
พร้อมใช้งานระดับองค์กรและ API-First
สำหรับนักพัฒนาที่สร้างคลื่นลูกใหม่ของ แอปพลิเคชันที่ขับเคลื่อนด้วยเสียง แนวทาง API แรกของโมเดลช่วยลดความยุ่งยากในการรวมระบบ ElevenLabs ทำให้ Scribe v2 Realtime พร้อมใช้งานผ่าน API ที่มีอยู่ เพื่อให้มั่นใจว่าฐานผู้ใช้ในวงกว้างสามารถเข้าถึงได้
ElevenLabs ยังชี้แจงรูปแบบการกำหนดราคา โดยยืนยันว่าการใช้งานจะถูกเรียกเก็บเงินตามโควต้ารายชั่วโมงของแผนการสมัครสมาชิกที่มีอยู่ ซึ่งจะช่วยหลีกเลี่ยงการแนะนำระดับราคาใหม่ที่ซับซ้อนสำหรับเทคโนโลยีล่าสุด ตามรายละเอียดในเอกสาร API
แพลตฟอร์มนี้จึงรวมชุดฟีเจอร์ระดับองค์กรเพื่อตอบสนองความต้องการของลูกค้าองค์กร Voice Activity Detection (VAD) ช่วยจัดการสตรีมเสียงได้อย่างมีประสิทธิภาพโดยการกรองความเงียบ ซึ่งช่วยลดต้นทุนการประมวลผล ตามประกาศยังมีโหมด Zero-retention สำหรับการจัดการปริมาณงานที่มีความละเอียดอ่อน
นอกจากนี้ การปฏิบัติตามมาตรฐาน เช่น SOC 2 และ GDPR ถือเป็นสิ่งสำคัญสำหรับการนำไปใช้ในอุตสาหกรรมที่มีการควบคุม เช่น การเงินและการดูแลสุขภาพ การขยายตลาดที่เข้าถึงได้ของโมเดล
การสร้างบนรากฐาน ของการเติบโตอย่างรวดเร็ว
การเปิดตัวผลิตภัณฑ์ถือเป็นความเคลื่อนไหวล่าสุดจากบริษัทที่ประสบกับการเติบโตอย่างรวดเร็ว เพียงสองเดือนที่ผ่านมา ElevenLabs ได้ประกาศคำเสนอซื้อหลักทรัพย์ที่เพิ่มมูลค่าเป็นสองเท่าเป็น 6.6 พันล้านดอลลาร์ ข่าวดังกล่าวเกิดขึ้นในขณะที่มีรายได้ประจำต่อปีทะลุ 200 ล้านดอลลาร์ ตามที่รายงานในเดือนกันยายน
การเพิ่มขึ้นอย่างรวดเร็วนี้น่าทึ่งมาก บริษัทก่อตั้งขึ้นในปี 2022 โดยอดีตวิศวกรของ Google และ Palantir โดยก้าวหน้าจากรอบก่อนเริ่มโครงการมูลค่า 2 ล้านดอลลาร์ในต้นปี 2023 สู่สถานะที่มีมูลค่าหลายพันล้านดอลลาร์ภายในเวลาไม่ถึง 3 ปี โดยขยายขนาดทีมและการดำเนินงานอย่างรวดเร็ว ตามประวัติของบริษัท
จากช่วงเริ่มต้น เครื่องมือแปลงข้อความเป็นคำพูดในการเข้าสู่พื้นที่ดนตรี AI ที่เป็นที่ถกเถียงแต่ระมัดระวังตามกฎหมาย ทำให้ ElevenLabs ได้ขยายการให้บริการอย่างต่อเนื่อง
การเปิดตัว Scribe v2 เรียลไทม์เป็นขั้นตอนเชิงกลยุทธ์ที่ช่วยเพิ่มขีดความสามารถระดับองค์กรให้ลึกซึ้งยิ่งขึ้น ด้วยการจัดหากลไกการถอดเสียงประสิทธิภาพสูงเพื่อเสริมโมเดลการสังเคราะห์เสียงที่ใช้กันอย่างแพร่หลาย บริษัทจึงวางตำแหน่งตัวเองเพื่อคว้าส่วนแบ่งที่มากขึ้นของตลาดการพัฒนา AI เสียงแบบ end-to-end