Công ty khởi nghiệp giọng nói AI ElevenLabs hôm nay đã ra mắt mô hình chuyển lời nói thành văn bản theo thời gian thực Scribe v2 và Scribe v2 được thiết kế cho các ứng dụng tương tác trực tiếp.

Scribe v2 mang lại độ chính xác cao nhất có thể trong việc chép âm thanh, ưu tiên độ trung thực của bản chép lời, chẳng hạn như nội dung được ghi âm hoặc lưu trữ chính xác.

Mặt khác, Scribe v2 Realtime được tối ưu hóa cho việc chép lời trực tiếp, theo thời gian thực và cung cấp tốc độ dẫn đầu ngành với độ trễ cực thấp. khoảng 150 mili giây trong khi vẫn duy trì độ chính xác cao

Theo công ty Scribe v2 Realtime có trụ sở tại London, các tác nhân AI đàm thoại, trợ lý cuộc họp và phụ đề theo thời gian thực trở nên tự nhiên hơn. Hiện đã có sẵn thông qua API, công cụ mới này nhằm mục đích mang lại độ chính xác ở cấp độ con người trên 90 ngôn ngữ.

Bản phát hành này củng cố nỗ lực của ElevenLabs vào thị trường doanh nghiệp, cung cấp một thành phần quan trọng để các nhà phát triển xây dựng trải nghiệm hỗ trợ bằng giọng nói có tính phản hồi cao.

Động thái này diễn ra sau khi mức định giá gần đây của công ty tăng lên 6,6 tỷ USD, báo hiệu sự mở rộng nhanh chóng của công ty trong không gian AI mang tính cạnh tranh.

Một tiêu chuẩn mới cho phiên âm thời gian thực

Được thiết kế dành riêng cho môi trường tương tác, trực tiếp, Scribe v2 Realtime giải quyết một nút thắt quan trọng về tốc độ của AI bằng giọng nói.

Công ty nhấn mạnh độ trễ phiên âm dưới 150 mili giây, một chỉ số hiệu suất chính để tạo ra cuộc trò chuyện liền mạch, giống như con người.

[nội dung được nhúng]

Khả năng như vậy rất quan trọng đối với các ứng dụng mà phản hồi ngay lập tức là không thể thương lượng. Một tính năng độc đáo góp phần vào tốc độ này là”độ trễ âm”, trong đó mô hình dự đoán từ và dấu câu tiếp theo, giúp giảm hơn nữa độ trễ nhận biết được, theo công ty.

Ngoài tốc độ, ElevenLabs còn giới thiệu độ chính xác cao của mô hình trên hơn 90 ngôn ngữ. Theo trang sản phẩm, Scribe v2 Realtime vượt trội so với một số đối thủ cạnh tranh lớn về điểm chuẩn nội bộ, bao gồm Gemini Flash 2.5 của Google, GPT-4o Mini của OpenAI và Nova 3 của Deepgram.

Kết quả điểm chuẩn ElevenLabs Scribe v2 Realtime FLEURS (Nguồn: ElevenLabs)

Tiếp tục Là xu hướng hiệu suất của công ty, trước đây dữ liệu đã xuất bản cho thấy mô hình Scribe thế hệ đầu tiên có tỷ lệ lỗi từ thấp hơn so với các sản phẩm của OpenAI, tạo nên một hồ sơ theo dõi cạnh tranh.

Cung cấp sức mạnh cho thế hệ AI đàm thoại tiếp theo

Trong một thị trường đông đúc với các dịch vụ phiên âm, ElevenLabs đang đặt cược vào tốc độ và độ chính xác để nắm bắt phân khúc doanh nghiệp đang xây dựng giao diện giọng nói thế hệ tiếp theo. Các trường hợp sử dụng chính của nó tập trung vào AI đàm thoại, trong đó độ trễ thấp cho phép tương tác trôi chảy hơn trong các tác nhân thoại để bán hàng hoặc hỗ trợ.

Đối với người dùng cuối, điều này giúp các cuộc trò chuyện ít bị tạm dừng khó xử hơn, khiến việc tương tác với các hệ thống tự động trở nên tự nhiên hơn.

Mô hình mới này đã được tích hợp vào nền tảng Đại lý ElevenLabs của chính công ty, cho phép các nhà phát triển triển khai ngay lập tức các đại lý được hỗ trợ bởi công cụ phiên mã nhanh hơn.

Sự tích hợp liền mạch này phù hợp với tầm nhìn dài hạn của công ty. Giám đốc điều hành Mati Staniszewski đã tuyên bố: “giọng nói là giao diện tương lai và chúng tôi đang xây dựng để đảm bảo rằng ElevenLabs tiếp tục là tiếng nói của công nghệ”.

Bằng cách cung cấp một công cụ nền tảng để hiểu giọng nói theo thời gian thực, ElevenLabs đặt mục tiêu trở thành một phần không thể thiếu trong hệ sinh thái phần mềm hỗ trợ giọng nói đang phát triển.

Sẵn sàng cho doanh nghiệp và API-First

Đối với các nhà phát triển đang xây dựng làn sóng ứng dụng hỗ trợ giọng nói tiếp theo, mô hình này Phương pháp tiếp cận API đầu tiên giúp đơn giản hóa việc tích hợp. ElevenLabs đã cung cấp Scribe v2 Realtime thông qua API hiện có, đảm bảo rằng cơ sở người dùng rộng rãi có thể truy cập được.

ElevenLabs cũng làm rõ mô hình định giá của mình, xác nhận rằng mức sử dụng sẽ được tính phí theo hạn ngạch hàng giờ của các gói đăng ký hiện có. Điều này tránh đưa ra mức giá mới phức tạp cho công nghệ mới nhất của mình, như được nêu chi tiết trong tài liệu API.

Để đáp ứng nhu cầu của khách hàng doanh nghiệp, nền tảng này bao gồm một bộ tính năng cấp doanh nghiệp. Phát hiện hoạt động giọng nói (VAD) giúp quản lý luồng âm thanh hiệu quả bằng cách lọc bỏ khoảng lặng, giảm chi phí xử lý. Chế độ không lưu giữ để xử lý khối lượng công việc nhạy cảm cũng có sẵn theo thông báo.

Hơn nữa, việc tuân thủ các tiêu chuẩn như SOC 2 và GDPR là điều cần thiết để áp dụng trong các ngành được quản lý như tài chính và chăm sóc sức khỏe, mở rộng thị trường có thể định địa chỉ của mô hình.

Xây dựng trên nền tảng của Rapid Tăng trưởng

Việc ra mắt sản phẩm là động thái mới nhất của một công ty đang trải qua sự tăng trưởng bùng nổ. Chỉ hai tháng trước, ElevenLabs đã công bố một đề nghị đấu thầu giúp tăng gấp đôi giá trị của nó lên 6,6 tỷ USD. Tin tức đó được đưa ra khi doanh thu định kỳ hàng năm của nó đã vượt qua 200 triệu USD, như đã báo cáo vào tháng 9.

Sự tăng trưởng nhanh chóng của nó là rất đáng chú ý. Được thành lập vào năm 2022 bởi các kỹ sư cũ của Google và Palantir, công ty đã phát triển từ vòng sơ bộ trị giá 2 triệu đô la vào đầu năm 2023 lên vị thế trị giá hàng tỷ đô la trong vòng chưa đầy ba năm, mở rộng đội ngũ và hoạt động của mình với tốc độ chóng mặt, theo lịch sử công ty.

Từ công cụ chuyển văn bản thành giọng nói ban đầu cho đến công cụ gây tranh cãi của nó nhưng khi thâm nhập vào không gian âm nhạc AI một cách thận trọng về mặt pháp lý, ElevenLabs đã liên tục mở rộng các dịch vụ của mình.

Phát hành Scribe v2 Realtime là một bước chiến lược giúp nâng cao năng lực doanh nghiệp của mình. Bằng cách cung cấp công cụ phiên âm hiệu suất cao để bổ sung cho các mô hình tổng hợp giọng nói được sử dụng rộng rãi, công ty khẳng định mình sẽ chiếm được thị phần lớn hơn trong thị trường phát triển AI giọng nói toàn diện.

Categories: IT Info