Amazon kwestionuje status quo w AI z Nova Sonic, nowym modelem mowy na mowę, który interpretuje nie tylko to, co mówią użytkownicy, ale także jak to mówią. Nova Sonic, zaprojektowany do obsługi fleksji wokalnej, tonu i kadencji, Nova Sonic całkowicie pomija tradycyjny potok mowy do tekstu. Zamiast tego słucha i reaguje bezpośrednio w ekspresyjnej mowie syntetycznej, dając użytkownikom poczucie ludzkiej rozmowy.
Amazon mówi, że Nova Sonic jest generatywnym modelem mowy, który ma na celu zrozumienie nie tylko tego, co mówią ludzie, ale jak to mówią, i twierdzi, że wydajność poniżej 200 milisekund w idealnych warunkach. Amazon informuje również, że model został przeszkolony przez ponad 100 000 godzin mowy, obejmując setki stylów głośników, wieków i akcentów. W odniesieniu wielojęzycznego odniesienia liboriseeech osiągnęło 4,2% słowo wskaźnik błędu w języku angielskim, francuskim, włoskim, niemieckim i hiszpańskim.
Pod względem dostępności Nova Sonic jest teraz dostępny za pośrednictwem dwukierunkowego API przesyłania strumieniowego za pośrednictwem Amazon Bedrock, dając programistom realne interakcje w zakresie interakcji głosowych. Amazon stwierdził również model jako opłacalny, stwierdzając, że jest on około 80% tańszy niż GPT-4O Openai.
zintegrowany w Alexa+ i Deweloper Stack
Elementy Nova Sonic są już wbudowane w Alexa+, przeprojektowany asystent głosowy Amazon, który został uruchomiony w lutym 2025 r. Alexa+ wprowadza takie funkcje, jak pamięć, rozmowa z wieloma zawrotami i inteligentna orkiestracja domu. Panos Panay, Lead urządzeń Amazon, podkreślił doświadczenie podczas premiery, stwierdzając: „Gdy korzystasz z Alexa+, poczujesz to.”
Alexa+ kosztuje 20 USD miesięcznie dla użytkowników nie-prime i jest włączony do członków Prime. Jednak niektóre obiecane funkcje, takie jak zamawianie wynosu za pośrednictwem Grubhub lub Generowanie historii dla dzieci, są nadal opóźnione. Starsze urządzenia ECHO mogą nie obsługiwać wymagań dotyczących przetwarzania modelu, ograniczając wdrażanie. Wewnętrznie asystent nadal polega na Aintropiku Claude AI w zakresie modelowania języków, zgodnie z inwestycją Amazon w wysokości 4 miliardów dolarów pod koniec 2024 roku.
Dla programistów, dostępność Nova Sonic poprzez interfejs API Bedrock wprowadza w czasie rzeczywistym w generowaniu reakcji głosowej-ważny krok poza statycznym głosem na oparte na transkrypcji. Sygnalizuje zamiar Amazon, aby zapewnić elementy składowe dla niestandardowych systemów konwersacyjnych, zamiast zwolnić jeden rozmiar agenta.
Część szerszego przeglądu sztucznej inteligencji
nova Sonic to tylko jedna część rozwijającego się Nowej AI AI Ecosystem. W grudniu 2024 r. Amazon wprowadził Nova Model Family-Nova Micro, Lite, Pro i Premier-które rozpiętą tekst, obraz i generowanie wideo. Model Nova Pro opublikował wyniki konkurencyjne w testach porównawczych, takich jak GSM8K (94,8%dokładność matematyki), generowanie kodu Pythona (89,0%), a wieloetapowe rozumowanie (86,9%).
W celu tworzenia treści wizualnych, Canvas Nova i Nova Reel zezwalają użytkownikom na generowanie obrazów i krótkich filmów, takich jak miarki wodne i przypisywanie. Na przykład Reel, obecnie obsługuje sześciosekundowe klipy z przyszłym wsparciem dla dwuminutowych sekwencji w rozwoju. Te kreatywne narzędzia są przeznaczone do użytku przedsiębiorstwa i obejmują zdolność kontroli w celu rozwiązywania problemów związanych z niewłaściwym użyciem mediów syntetycznych.
Amazon rozszerzył publiczny dostęp do swoich modeli za pośrednictwem Nova Act Sdk i nova.amazon.com, gdzie programiści mogą bezpośrednio testować modele NOVA. Nova Act umożliwia tworzenie agentów AI, którzy mogą działać w przeglądarkach internetowych-kliknięcie, pisanie i nawigacja na stronach za pośrednictwem interfejsu wizualnie świadomego. W przeciwieństwie do modułowej struktury łańcucha agencji Google, SDK Amazon priorytetowo traktuje kontrolę programistów nad logiką koordynacyjną prebitowaną.