Antropic pare gata să aducă conversații vocale în aplicația sa de asistență Claude AI Assistant Mobile, cu caracteristica Relately Funcțional internațional și apropiat de un număr public. Modul Voice Claude Semnalizează mutarea lui Antropic în arena plină de viață a interacțiunii AI bazate pe voce, populată în prezent de oferte de la OpenAI, Google, Meta și alții.

Implementarea inițială adoptă o abordare controlată a conversației. Spre deosebire de sistemele care se străduiesc pentru a fi complet fluide, asemănătoare omului, modul Voice al lui Claude funcționează pe bază de apăsare, la fel ca și ca ChatGPT înainte de lansarea modului Voice Advanced.

Aceasta înseamnă Această metodă împiedică AI să taie utilizatorii, dar sacrifică capacitatea interjecțiilor spontane sau a clarificărilor la mijlocul gândului. Rapoartele timpurii sugerează că sistemul se ocupă de intrare vocală în mod fiabil, chiar și cu pauze naturale, dar necesită utilizatorului să-și țină dispozitivul în timpul interacțiunii.

Breaking 🚨: Modul Voice al lui Claude este acum complet funcțional și acceptă căutare pe web și încărcări de fișiere.

vine cu vizualizări de text push-to-talk și derulabil. Va fi o actualizare destul de mare pentru aplicația Claude Mobile!

* Nu este disponibil încă publicului pic.twitter.com/lhsxeqthql

-testingcatalog New href=”https://twitter.com/testingcatalog/status/1919003910510961078?ref_src=twsrc%5etfw”target=”_ blank”> mai 4, 2025

caracteristici dincolo de chat

dincolo Modul Claude integrează mai multe funcționalități. Acesta va oferi Patru opțiuni vocale -două clasificate ca masculin, două ca femeie-permițând o anumită preferință a utilizatorului. Surse citate alături de răspunsul rostit în interfața aplicației. Această interfață afișează istoricul conversației ca text defilabil, paginat.

poate, în special, modul voce acceptă încărcările de fișiere , permițând utilizatorilor să furnizeze imagini sau documente PDF și apoi să discute conținutul lor direct cu AI prin comenzi vocale, o capacitate Google se dezvoltă și pentru Gemini Live. Funcția urmează disponibilitatea globală recentă a căutării pe web în aplicația Claude Mobile din martie.

Antropic continuă să-și dezvolte modul voce adăugând „sticla”, cea mai recentă voce din cea mai nouă actualizare a aplicațiilor Claude.

Mă gândesc că aceasta va fi cea mai populară voce. https://t.co/npqfvuw6pj pic.twitter.com/dojyp52bxk

-m1 (@m1astra) april 29, 2025

The conversațional AI Arena

Modelul de interacțiune push-to-talk de la Claude îl diferențiază de concurenți care lucrează activ pe un flux de dialog mai dinamic. Openai a rafinat modul vocea avansat de Chatgpt pentru a gestiona mai bine pauzele utilizatorilor fără întrerupere, urmărind schimburi mai ușoare.

meta, între timp, teste detaliate în aprilie a unui experimental „full-duplex”voice pentru aplicarea sa de 4-powered a fost limitată. Sistemele full-duplex încearcă să permită ambelor părți (umane și AI) să vorbească simultan, la fel ca un apel telefonic natural.

Dificultatea de a perfecționa ritmul de conversație natural a fost subliniat de demo-ul de la Sesame AI din martie 2025 al unui model vocal, atât de realist-completat cu ezitări și se pot împiedica-în timp ce a fost un testator, totuși, care se confruntă încă cu probleme de ezitare cu un nivel de organizare. Abordarea

antropică diferă, de asemenea, în aportul multimodal în comparație cu unii rivali. În timp ce utilizatorii Claude pot încărca fișiere statice precum PDF-uri și imagini pentru discuții, Gemini Live de la Google a obținut funcții în martie, permițând analiza în timp real a fluxurilor de camere pentru smartphone-uri live și a conținutului pe ecran. OpenAI a adăugat anterior suport video live la modul vocală Chatgpt în decembrie 2024.

Acces și etică în voce AI

modul în care utilizatorii vor accesa modul voce al lui Claude rămâne nespecificat, dar piața arată strategii variate. OpenAI a început să ofere utilizatori de nivel liber, previzualizări zilnice limitate ale modului său vocator avansat (folosind modelul Mini GPT-4O mai puțin capabil) în februarie, rezervând acces nerestricționat prin intermediul modelului complet GPT-4O pentru plătirea abonaților. Această strategie cu niveluri contrastează brusc cu Microsoft, care, în aceeași lună, și-a făcut caracteristicile vocale de copilot complet gratuite.

Pe partea modelului vocal al lucrurilor, modelul Nova Sonic al Amazonului, lansat în aprilie, cu accent pe sinteza expresivă, în timp real, în timp real, este disponibilă pentru dezvoltatori prin intermediul platformei sale de pat. Modelele de vorbire-vorbire urmăresc traducerea aportului vorbit direct la ieșirea vorbită, reducând potențial latența și captarea mai multor nuanțe vocale în comparație cu conductele tradiționale de vorbire-text-vorbire.

Google Chirp 3 HD Voice Model, integrat în Vertex AI în martie, de asemenea, vizează dezvoltatorii, oferind stiluri de voce personalizate și un <“voce personalizată instantanee” care ridică întrebări etice despre consimțământul pentru replicarea vocală. Modul Voice Grok 3 al lui Xai, lansat în februarie 2025 pentru X Premium+ Abonați, include în mod notoriu o opțiune „neclintită” care permite înjurături, insulte și chat explicit, care reflectă o filozofie a restricției minime destul de diferite de rezultatele tipice moderate ale realimatului de realitate, așa cum a fost văzută. Clonarea vocală pentru escrocherii, provocând discuții despre dacă Voices AI ar trebui să păstreze markeri artificiali. Openai în sine a întâlnit turbulențe etice atunci când a trebuit să retragă o opțiune vocală în mai 2024 datorită asemănării sale percepute cu actrița Scarlett Johansson.

Categories: IT Info