Amazon kwestionuje status quo w AI z Nova Sonic, nowym modelem mowy na mowę, który interpretuje nie tylko to, co mówią użytkownicy, ale także jak to mówią. Nova Sonic, zaprojektowany do obsługi fleksji wokalnej, tonu i kadencji, Nova Sonic całkowicie pomija tradycyjny potok mowy do tekstu. Zamiast tego słucha i reaguje bezpośrednio w ekspresyjnej mowie syntetycznej, dając użytkownikom poczucie ludzkiej rozmowy.

Amazon mówi, że Nova Sonic jest generatywnym modelem mowy, który ma na celu zrozumienie nie tylko tego, co mówią ludzie, ale jak to mówią, i twierdzi, że wydajność poniżej 200 milisekund w idealnych warunkach. Amazon informuje również, że model został przeszkolony przez ponad 100 000 godzin mowy, obejmując setki stylów głośników, wieków i akcentów. W odniesieniu wielojęzycznego odniesienia liboriseeech osiągnęło 4,2% słowo wskaźnik błędu w języku angielskim, francuskim, włoskim, niemieckim i hiszpańskim.

Pod względem dostępności Nova Sonic jest teraz dostępny za pośrednictwem dwukierunkowego API przesyłania strumieniowego za pośrednictwem Amazon Bedrock, dając programistom realne interakcje w zakresie interakcji głosowych. Amazon stwierdził również model jako opłacalny, stwierdzając, że jest on około 80% tańszy niż GPT-4O Openai.

zintegrowany w Alexa+ i Deweloper Stack

Elementy Nova Sonic są już wbudowane w Alexa+, przeprojektowany asystent głosowy Amazon, który został uruchomiony w lutym 2025 r. Alexa+ wprowadza takie funkcje, jak pamięć, rozmowa z wieloma zawrotami i inteligentna orkiestracja domu. Panos Panay, Lead urządzeń Amazon, podkreślił doświadczenie podczas premiery, stwierdzając: „Gdy korzystasz z Alexa+, poczujesz to.”

Alexa+ kosztuje 20 USD miesięcznie dla użytkowników nie-prime i jest włączony do członków Prime. Jednak niektóre obiecane funkcje, takie jak zamawianie wynosu za pośrednictwem Grubhub lub Generowanie historii dla dzieci, są nadal opóźnione. Starsze urządzenia ECHO mogą nie obsługiwać wymagań dotyczących przetwarzania modelu, ograniczając wdrażanie. Wewnętrznie asystent nadal polega na Aintropiku Claude AI w zakresie modelowania języków, zgodnie z inwestycją Amazon w wysokości 4 miliardów dolarów pod koniec 2024 roku.

Dla programistów, dostępność Nova Sonic poprzez interfejs API Bedrock wprowadza w czasie rzeczywistym w generowaniu reakcji głosowej-ważny krok poza statycznym głosem na oparte na transkrypcji. Sygnalizuje zamiar Amazon, aby zapewnić elementy składowe dla niestandardowych systemów konwersacyjnych, zamiast zwolnić jeden rozmiar agenta.

Część szerszego przeglądu sztucznej inteligencji

nova Sonic to tylko jedna część rozwijającego się Nowej AI AI Ecosystem. W grudniu 2024 r. Amazon wprowadził Nova Model Family-Nova Micro, Lite, Pro i Premier-które rozpiętą tekst, obraz i generowanie wideo. Model Nova Pro opublikował wyniki konkurencyjne w testach porównawczych, takich jak GSM8K (94,8%dokładność matematyki), generowanie kodu Pythona (89,0%), a wieloetapowe rozumowanie (86,9%).

W celu tworzenia treści wizualnych, Canvas Nova i Nova Reel zezwalają użytkownikom na generowanie obrazów i krótkich filmów, takich jak miarki wodne i przypisywanie. Na przykład Reel, obecnie obsługuje sześciosekundowe klipy z przyszłym wsparciem dla dwuminutowych sekwencji w rozwoju. Te kreatywne narzędzia są przeznaczone do użytku przedsiębiorstwa i obejmują zdolność kontroli w celu rozwiązywania problemów związanych z niewłaściwym użyciem mediów syntetycznych.

Amazon rozszerzył publiczny dostęp do swoich modeli za pośrednictwem Nova Act Sdk i nova.amazon.com, gdzie programiści mogą bezpośrednio testować modele NOVA. Nova Act umożliwia tworzenie agentów AI, którzy mogą działać w przeglądarkach internetowych-kliknięcie, pisanie i nawigacja na stronach za pośrednictwem interfejsu wizualnie świadomego. W przeciwieństwie do modułowej struktury łańcucha agencji Google, SDK Amazon priorytetowo traktuje kontrolę programistów nad logiką koordynacyjną prebitowaną.

nadchodzący model rozumowania może zamknąć zestaw uwalniania pętli w Mid-2025. Nadchodzący model ma na celu połączenie szybkiej rozmowy w czasie rzeczywistym z bardziej przemyślanym, analitycznym przetwarzaniem. Wewnętrznie jest w stanie rywalizować z Claude 3.7 Sonet, O3-Mini Openai i Google’s Gemini 2.5 Pro.

Ten rozwój oznacza również ruch Amazon w celu zmniejszenia polegania na partnerach zewnętrznych, takich jak antropiczne, i zamiast tego zbudować zintegrowane pionowo stos AI-od swoich niestandardowych układów pociągowych do zastosowania w AWS i Alexa+. Jeśli się powiedzie, może zapewnić firmie kontrolę nad przepływem danych, opóźnieniami i optymalizacją kosztów w porównaniu z konkurentami API, takimi jak Openai.

Konkurencyjne głosy: Openai, XAI i sezama AI

Ponowne wejście na głos w AI, które pojawia się w AI Voice AI Amid of Experiment w całym sektorze. Openai poszerzył zasięg zaawansowanego trybu głosowego, dodając dostęp do sieci internetowej i aktualizacje, które zmniejszają przerwy i pozwalają na naturalne przerwy w rozmowie. Tymczasem Microsoft sprawił, że swoje funkcje głosowe Copilota i myślą głębsze narzędzia dla wszystkich użytkowników w lutym 2025 r..

Na eksperymentalnej przewagie Sesame AI Assistant głosu jako „Eksperymentalnie ludzki” przesuwa granice, naśladując ludzkie wahania i nieregularne tonalne nieregularności tak przekonująco Podczas gdy realizm był imponujący, wzbudził także etyczne obawy dotyczące podszywania się w AI i manipulacji emocjonalną. I odwrotnie, tryb głosowy XAI Grok 3 zajmuje radykalnie inną drogę, umożliwiając użytkownikom umożliwienie wulgaryzmowi, reaktywnego asystenta głosowego. W sprzedaży jako alternatywa „wolności słowa”, cecha poręczy i moderacja, aby umożliwić wysoce ekspresyjne, czasem wstrząsające reakcje-w sposób wyraźny kontrast z bardziej regulowanym podejściem Amazon.

Nova Sonic ma na celu uderzenie środkowego gruntu-wyrażając ekspresję i reakcję, jednocześnie utrzymując funkcje bezpieczeństwa. To, czy równowaga ta może zdobyć zarówno programistów, jak i użytkowników końcowych, jest do zobaczenia, zwłaszcza gdy oczekiwania dotyczące konwersacyjnej sztucznej inteligencji nadal się zmieniają.

Categories: IT Info