Antropisk virker klar til å bringe stemmesamtaler til sin Claude AI Assistant Mobile-applikasjon, med funksjonen

Det kommer med push-to-talk og rullbare tekstvisninger. Det vil være en ganske stor oppgradering for Claude Mobile App!

* Ikke tilgjengelig for publikum ennå -to kategorisert som hann, to som kvinne-tillat noen bruker.

Kanskje mest bemerkelsesverdig, stemmemodus Støtter filopplastinger , slik at brukere kan gi bilder eller PDF-dokumenter og deretter diskutere innholdet direkte med AI gjennom stemmekommandoer, en mulighet Google utvikler også for Gemini Live. Funksjonen følger den nylige globale tilgjengeligheten av nettsøk i Claude Mobile-appen i mars.

Anthropic fortsetter å utvikle sin stemmemodus som legger til”Glassy”, den siste stemmen i den nyeste Claude-appoppdateringen.

Jeg tenker at dette vil være den mest populære stemmen. https://t.co/npqfvuw6pj pic.twitter.com/dojyp52bxk

-m1 (@m1astra) begrenset. Full-dupleks-systemer prøver å la begge parter (mennesker og AI) snakke samtidig, omtrent som en naturlig telefonsamtale.

Vanskeligheten med å perfeksjonere naturlig samtalepacing ble understreket av sesam AIs mars 2025 Demo av en stemmemodell så realistisk-komplett med nesits og stumbles-Turntaking.

Antropisk tilnærming er også forskjellig i multimodal inngang sammenlignet med noen rivaler. Mens Claude-brukere kan laste opp statiske filer som PDF-er og bilder for diskusjon, fikk Googles Gemini Live funksjoner i mars og tillater sanntidsanalyse av live smarttelefonkamerafôr og innhold på skjermen. Openai hadde tidligere lagt til live videostøtte til Chatgpts stemmemodus i desember 2024.

tilgang og etikk i stemme AI

Hvordan brukere vil få tilgang til Claude’s stemmemodus forblir uspesifisert, men markedet viser varierte strategier. Openai begynte å tilby gratis-tier brukere begrensede daglige forhåndsvisninger av sin avanserte stemmemodus (ved å bruke den mindre dyktige GPT-4O Mini-modellen) i februar, og reserverte ubegrenset tilgang via Full GPT-4O-modellen for å betale abonnenter. Denne lagdelte strategien står i kontrast til Microsoft, som i samme måned gjorde at Copilot-stemmen er helt gratis.

På stemmemodellsiden av ting, Amazons Nova Sonic-modell, som ble lansert i april med fokus på uttrykksfull, sanntids tale-til-tale-syntese, er tilgjengelig for utviklere via sin bedrock-plattform. Tale-til-tale-modeller tar sikte på å oversette talte innspill direkte til talte produksjon, potensielt redusere latens og fange mer vokal nyanse sammenlignet med tradisjonell tale-til-tekst-til-tale rørledninger.

Googles CHIRP 3 HD Voice Model, href=”https://cloud.google.com/text-to-speech/docs/chirp3-instant-custom-stema”target=”_ blank”> “Instant Custom Voice” Funksjonen som reiser etiske spørsmål om samtykke til tale replikasjon. XAIs Grok 3-stemmemodus, lansert februar 2025 for X Premium+-abonnenter, inkluderer notorisk et”unhinged”-alternativ som tillater banning, fornærmelser og eksplisitt chat, og gjenspeiler en filosofi om minimal begrensning ganske forskjellig fra den typisk modererte output av mainstream-assistent. Kloning for svindel, og ber om diskusjoner om AI-stemmer skal beholde kunstige markører. Openai selv møtte etisk turbulens da den måtte trekke et stemmealternativ i mai 2024 på grunn av sin opplevde likhet med skuespilleren Scarlett Johansson.

Categories: IT Info