Khởi nghiệp AI của Pháp, Mistral đã ra mắt các mẫu AI âm thanh mở đầu tiên của mình, Voxtral, vào thứ ba, trực tiếp thách thức sự thống trị của các hệ thống độc quyền từ Google và Openai. Công ty có trụ sở tại Paris đang định vị họ mô hình mới của mình là một sự thay thế hiệu suất cao, hiệu quả về chi phí cho các nhà phát triển. Được phát hành theo giấy phép Apache 2.0 cho phép, Voxtral nhằm mục đích dân chủ hóa việc tiếp cận với Trí thông minh bằng giọng nói sẵn sàng sản xuất với phiên âm tiên tiến và hỗ trợ đa ngôn ngữ. Nó vô địch một cách tiếp cận nguồn mở chống lại các khu vườn có tường bao quanh trong ngành công nghiệp. Twith Voxtral, các nhà phát triển không còn phải lựa chọn giữa một hệ thống mở rẻ nhưng thiếu sót hoặc một hệ thống đóng chức năng. src=”Dữ liệu: Image/SVG+XML; OCIGD2LKDGG9IJC1MCIGAGVPZ2H0PSI0MZGIIHHTBG5ZPSJODHRWOII8VD3D3LNCZLM9Y8YMDAWL3N2ZYI+PC9ZDMC+”>
Voxtral là câu trả lời nguồn mở của Mistral, đối với giọng nói độc quyền AI
mistral đang định vị voxtral là giải pháp cho một tình huống khó xử của nhà phát triển lâu đời. Trong nhiều năm, các nhóm phải lựa chọn giữa các hệ thống lời nói nguồn mở, rẻ tiền thường có tỷ lệ lỗi cao và sự hiểu biết hạn chế, hoặc API độc quyền mạnh mẽ đi kèm với mức giá cao và kiểm soát triển khai ít hơn. Voxtral nhằm mục đích thu hẹp khoảng cách này bằng cách cung cấp những gì mà Mistral gọi là Trí thông minh lời nói thực sự có thể sử dụng trong sản xuất”theo giấy phép Apache 2.0 cho phép.
Công ty đã phát hành một gia đình các mô hình phù hợp với các nhu cầu khác nhau. Hàng đầu là Voxtral Small, một mô hình tham số 24 tỷ được thiết kế cho các ứng dụng quy mô sản xuất. Để sử dụng trên thiết bị hoặc sử dụng cục bộ, có Voxtral Mini, một biến thể tham số 3 tỷ nhỏ gọn hơn. Cuối cùng, đối với các nhiệm vụ nhạy cảm với chi phí, có khối lượng lớn, Mistral cung cấp phiên bản mini voxtral, phiên bản được tối ưu hóa cao và bị loại bỏ hoàn toàn vào phiên âm. Cả hai mô hình nhỏ và mini đều là Có sẵn để tải xuống trên mặt ôm cho khối lượng công việc cục bộ và tại chỗ. Đối với tích hợp dựa trên đám mây, các mô hình có thể truy cập thông qua một cuộc gọi API đơn giản, với giá bắt đầu chỉ là 0,001 đô la mỗi phút. Công ty cũng có kế hoạch tung ra Voxtral trong chế độ giọng nói của LE CHATBOT. Xương sống LLM này mang đến cho nó một sự hiểu biết ngữ nghĩa sâu sắc về nội dung âm thanh. Với cửa sổ bối cảnh 32.000 người nói, nó có thể xử lý các tệp âm thanh dài tới 30 phút để phiên âm và tối đa 40 phút để hiểu các tác vụ, chẳng hạn như đặt câu hỏi phức tạp về nội dung. Voxtral có thể thực hiện Hỏi & Đáp gốc và tóm tắt và nó hỗ trợ gọi chức năng trực tiếp từ các lệnh thoại, biến ý định nói thành các lệnh hệ thống có thể hành động. Nó cũng có tính năng phát hiện ngôn ngữ tự động, với hiệu suất tiên tiến trong các ngôn ngữ được sử dụng rộng rãi như tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức và tiếng Hindi. Công ty đã tuyên bố, chúng tôi phát hành các mô hình voxtral để tăng tốc tương lai này. Cạnh tranh khốc liệt, nơi những người khổng lồ công nghệ và các công ty khởi nghiệp nhanh nhẹn đều ganh đua cho sự thống trị trong tương lai của tương tác giọng nói. Để ủng hộ các tuyên bố của mình, Mistral đã phát hành dữ liệu điểm chuẩn hấp dẫn Voxtral với tư cách là một nhà lãnh đạo trong cả hiệu suất và hiệu quả chi phí. Trên điểm chuẩn Fleurs, phiên mã nhỏ và nhỏ Voxtral ngồi trên cạnh tối ưu của đường cong hiệu suất giá, mang lại tỷ lệ lỗi thấp hơn so với Google. Trong khi Elevenlabs, người ghi chép về tỷ lệ lỗi thấp hơn một chút đối với một số nhiệm vụ tiếng Anh dài, nó sẽ làm như vậy với mức giá cao hơn gấp đôi voxtral nhỏ, củng cố đề xuất giá trị sai. src=”Data: Image/SVG+XML; Igd2lkdgg9ijgwnyigagvpz2h0psi0ntciihhtbg5zpsjodhrwoi8vd3d3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>
Điều này ra mắt trực tiếp thách thức những tiến bộ đang diễn ra từ Big Tech. Trong những tháng gần đây, Openai đã mở rộng chế độ giọng nói nâng cao lên web, trong khi nhân học đã tung ra chế độ thoại đàm thoại cho AI Claude AI của nó. Amazon cũng đã thực hiện một động thái đáng kể vào tháng Tư với mô hình Nova Sonic biểu cảm thời gian thực, đã được tích hợp vào trợ lý Alexa+ của mình. Như các thiết bị của Amazon đã dẫn đầu Panos Panay đã hứa, khi bạn sử dụng Alexa+, bạn sẽ cảm thấy nó.”
Sự đổi mới không giới hạn ở Người khổng lồ. Thị trường cũng đang được định hình bởi các công ty khởi nghiệp chuyên ngành khám phá các hốc khác nhau. Vào tháng 5, AI ổn định đã hợp tác với ARM để phát hành một mô hình âm thanh không có bản quyền, miễn phí bản quyền, giải quyết các mối quan tâm về sở hữu trí tuệ bằng cách sử dụng dữ liệu đào tạo có nguồn gốc đạo đức. CEO Prem Akkaraju nhấn mạnh sự tập trung vào hiệu quả, nói rằng, chúng tôi đã chuyển từ vài phút sang chỉ vài giây để tạo âm thanh hoàn toàn trên CPU ARM trên điện thoại thông minh.”Thung lũng kỳ lạ. Nhiệm vụ triết học cho tính xác thực cảm xúc này đã được ghi lại bởi Andreessen Horowitz, Anjney Midha, người đã lưu ý, thì sự phẳng cảm xúc của AI Audio đã cạn kiệt và không tự nhiên. quan trọng; Nó là một động thái chiến lược trong cuộc chiến tài năng AI leo thang. Cuộc chiến cho Top Minds đã buộc các công ty phải xây dựng, mua hoặc săn trộm. Việc mua lại gần đây của Voice AI Startup Playai với 45 triệu đô la được báo cáo là một ví dụ điển hình của xu hướng này. Công ty đã công bố các kế hoạch cho các bản cập nhật trong tương lai, bao gồm phân khúc người nói, phát hiện cảm xúc và dấu thời gian cấp độ từ. Bằng cách cung cấp một sự thay thế mạnh mẽ, cởi mở và giá cả phải chăng, Mistral đang đặt cược rằng nó có thể tạo ra một thị trường ngách đáng kể trong tương lai đầu tiên.