Microsoft wydał Vibevoice, nowy model AI open source, który tworzy naturalny, długotrwały dźwięk z wieloma głośnikami. Ogłoszone pod koniec sierpnia narzędzie może wygenerować do 90 minut mowy za pomocą czterech odrębnych głosów, co czyni go idealnym do prototypowania podcastów lub materiałów szkoleniowych.

W przeciwieństwie do wielu dużych modeli, Vibevoice jest wystarczająco mały do ​​badań na standardowych komputerach. Aby zapobiec niewłaściwemu użyciu, Microsoft ma wbudowane funkcje bezpieczeństwa, takie jak Audible AI Condulaci i A Zakaz tworzenia głębokich informacji lub rozprzestrzeniania się informacji. To wydanie oznacza najnowszy krok Microsoftu w konkurencyjnej przestrzeni AI GOSE.

Ruch oferuje nowe potężne narzędzie dla twórców i badaczy, sygnalizując rosnące ambicje firmy do opracowania fundamentalnych modeli AI i wspierania otwartej społeczności badawczej wokół generatywnego dźwięku.

Vibevoice: Multi-Speaker Podcast Studio na GPU

znacząca płyta audio . jest możliwe dzięki wyrafinowanej architekturze. Używa modelu parametrów 1,5 miliarda, czyli . Pozwala to na działanie na sprzęt klasy konsumenckiej, demokratyzując dostęp dla badaczy. Ramy opiera się na modelu dyfuzji nowoczesnej w celu wygenerowania dźwięku o wysokiej wierności.

Zgodnie z jego dokumentacją techniczną, Vibevoice używa ciągłych tokenizatorów mowy o niskiej szybkości klatek 7,5 Hz. Takie podejście zachowuje jakość dźwięku Przy jednoczesnym zwiększaniu wydajności obliczeniowej, kluczowym czynnikiem w przetwarzaniu długich sekwencji bez masywnych wymagań sprzętowych.

w celu zarządzania przepływem dialogu, Vibevoice został przeszkolony przy użyciu open source QWEN2.5 LLM. Pomaga to zorganizować naturalne zakręty i utrzymuje spójność głośników przez długi czas. Potencjalne wykorzystuje zakres od tworzenia dostępnych treści edukacyjnych po prototypowanie złożonego dialogu postaci dla gier wideo.

Wbudowane poręcze dla odpowiedzialnych AI open source

Rozpoznanie potencjału niewłaściwego użycia, Microsoft osadził znaczące zabezpieczenia bezpośrednio w VIBEvoice. Firma przyjmuje proaktywne stanowisko w sprawie odpowiedzialnego wdrożenia AI, szczególnie w przypadku potężnego narzędzia open source, które zdolne do naśladowania ludzkiej rozmowy.

Każdy plik audio generowany przez model zawiera obowiązkowe usłyszalne zastrzeżenie. Ten krótki klip dźwiękowy wyraźnie stwierdza, że ​​treść została utworzona przez AI. Ponadto każdy plik zawiera ukryty cyfrowy znak wodny, umożliwiający prześledzenie pochodzenia dźwięku z powrotem do modelu.

Warunki licencyjne Microsoft narzucają ścisłe ograniczenia. Model jest wykluczony z dowolnego użytku obejmującego podszywanie się pod uwagę, tworzenie lub rozprzestrzenianie się dezinformacji lub konwersji głosu w czasie rzeczywistym dla głębokich szaf. Te poręcze mają na celu ograniczenie ryzyka przy jednoczesnym wspieraniu otwartych badań.

Prowadząc zatłoczony krajobraz AI

Vibevoice wchodzi na gwałtownie konkurencyjny rynek dla generatywnego AI. Jego wielokrotne, długie możliwości pozycjonują ją jako bardziej zaawansowaną alternatywę dla istniejących narzędzi, takich jak podsumowania audio Dwu-Voice w Google. Wydanie podkreśla szerszy branżowy wyścig do doskonałej syntetycznej technologii głosowej.

Duże AI Labs walczą o dominację. Openai niedawno zaktualizował własne możliwości głosowe za pomocą interfejsu API w czasie rzeczywistym. Tymczasem firmy takie jak antropiczne, Mistral i Amazon również wprowadziły potężne modele, z których każda dotyczyła różnych przypadków użycia asystentów AI na rozwiązania korporacyjne.

To uruchomienie jest częścią większego strategicznego obrotu dla Microsoft. Następuje niedawne odsłonięcie innych wewnętrznych modeli, takich jak MAI-1 i MAI-VOICE-1. Ten push sygnalizuje wyraźny zamiar budowania własności własnej sztucznej inteligencji, zmniejszając jego zależność od partnerstwa z Openai.

Na temat CEO Microsoft AI Mustafa Suleyman Hovever stwierdził: „Naszym celem jest pogłębienie partnerstwa i upewnienie się, że mamy wielką współpracę z Openai przez wiele lat, wiele lat”, sugeruje, że strategia innoważowa i zewnętrzna współpraca.

Potwierdził także długoterminowe zaangażowanie firmy, mówiąc: „Mamy ogromną pięcioletnią mapę drogową, którą inwestujemy w kwartał po kwartał. Myślę, że to będzie kontynuowane.”