Microsoft phát hành mô hình AI nguồn mở Vibevoice để tạo podcast đa loa

Microsoft đã phát hành Vibevoice, một mô hình AI nguồn mở mới tạo ra âm thanh tự nhiên, dài với nhiều loa. Được công bố vào cuối tháng 8, công cụ này có thể tạo ra tới 90 phút phát biểu bằng cách sử dụng bốn giọng nói riêng biệt, khiến nó trở nên lý tưởng cho việc tạo mẫu podcast hoặc tài liệu đào tạo. Để ngăn chặn việc sử dụng sai, Microsoft đã xây dựng các tính năng an toàn như Audible AI từ chối trách nhiệm và Tương đối hiệu quả . Điều này cho phép nó chạy trên phần cứng cấp người tiêu dùng, dân chủ hóa quyền truy cập cho các nhà nghiên cứu. Khung dựa trên mô hình khuếch tán tiếp theo để tạo âm thanh độ chính xác cao. Cách tiếp cận này duy trì chất lượng âm thanh trong khi tăng hiệu quả tính toán, một yếu tố chính trong việc xử lý các chuỗi dài mà không cần các yêu cầu phần cứng lớn. Điều này giúp điều phối việc quay vòng tự nhiên và duy trì tính nhất quán của loa trong thời gian dài. Việc sử dụng tiềm năng từ việc tạo nội dung giáo dục có thể truy cập đến tạo mẫu cho đối thoại nhân vật phức tạp cho các trò chơi video. Công ty đang có lập trường chủ động về triển khai AI có trách nhiệm, đặc biệt là đối với một công cụ nguồn mở mạnh mẽ có khả năng bắt chước cuộc trò chuyện của con người. Clip âm thanh ngắn này tuyên bố rõ ràng rằng nội dung được tạo bởi AI. Hơn nữa, mỗi tệp chứa một hình mờ kỹ thuật số ẩn, cho phép nguồn gốc của âm thanh được truy nguyên từ mô hình. Mô hình bị cấm từ bất kỳ việc sử dụng nào liên quan đến mạo danh, tạo hoặc lan truyền thông tin hoặc chuyển đổi giọng nói thời gian thực cho Deepfakes. Những người bảo vệ này nhằm mục đích giảm thiểu rủi ro trong khi vẫn thúc đẩy nghiên cứu mở. Các khả năng đa bộ phát, có khả năng dài, định vị nó là một sự thay thế nâng cao hơn cho các công cụ hiện có như tóm tắt âm thanh Notebooklm hai giọng nói của Google. Bản phát hành nhấn mạnh một cuộc đua toàn ngành hơn để hoàn hảo công nghệ giọng nói tổng hợp. Openai gần đây đã nâng cấp khả năng giọng nói của riêng mình với API thời gian thực. Trong khi đó, các công ty như Anthropic, Mistral và Amazon cũng đã ra mắt các mô hình mạnh mẽ, mỗi trường hợp nhắm mục tiêu các trường hợp sử dụng khác nhau từ các trợ lý AI đến các giải pháp doanh nghiệp. Nó theo sau việc công bố các mô hình nội bộ khác như Mai-1 và Mai-Woice-1. Đẩy này báo hiệu một ý định rõ ràng để xây dựng AI độc quyền, làm giảm sự phụ thuộc của nó vào quan hệ đối tác của nó với Openai.

Ông cũng xác nhận cam kết lâu dài của công ty, nói rằng, chúng tôi có một lộ trình năm năm rất lớn mà chúng tôi đã đầu tư trong quý này qua quý. Vì vậy, tôi nghĩ rằng đó sẽ tiếp tục.”

Microsoft phát hành mô hình AI nguồn mở Vibevoice để tạo podcast đa loa

Published by All Things Windows on September 3, 2025

IT Info

Cách hiển thị Chỉ báo khóa Num Lock & Caps trên Thanh tác vụ (11 & 10)

IT Info

Tencent từ mới Hunyuanworld-Voyager AI biến những bức ảnh duy nhất thành thế giới 3D được khám phá

IT Info

Apple cho biết sử dụng Google Gem Gemini AI để cung cấp năng lượng cho Siri đại tu giữa cuộc khủng hoảng nội bộ

Microsoft phát hành mô hình AI nguồn mở Vibevoice để tạo podcast đa loa

Published by All Things Windows on September 3, 2025

Related Posts

IT Info

Cách hiển thị Chỉ báo khóa Num Lock & Caps trên Thanh tác vụ (11 & 10)

IT Info

Tencent từ mới Hunyuanworld-Voyager AI biến những bức ảnh duy nhất thành thế giới 3D được khám phá

IT Info

Apple cho biết sử dụng Google Gem Gemini AI để cung cấp năng lượng cho Siri đại tu giữa cuộc khủng hoảng nội bộ