antropinen näyttää olevan valmis tuomaan äänikeskusteluja Claude A-avustaja-mobiilisovellukseensa ominaisuudella ilmoitettu funktionaalinen ja lähivuus A Tuleva Claude-äänitila merkitsee antropian siirtymistä ääniohjatun AI-vuorovaikutuksen vilkkaaseen areenalle, jonka tällä hetkellä asuttavat Openain, Googlen, Meta: n ja muiden tarjoukset. Toisin kuin järjestelmät, jotka pyrkivät täysin sujuvaan, ihmisen kaltaiseen taaksepäin, Claude’s Voice-tila toimii painopisteellä, aivan kuten chatgpt ennen edistyneen äänitilan käynnistämistä.
Tämä tarkoittaa, että käyttäjät ilmaisevat kyselynsä tai lausuntonsa, napauttavat sitten lähetyspainiketta manuaalisesti AI-prosessin saamiseksi. Tämä menetelmä estää AI: tä katkaisemasta käyttäjiä, mutta uhraa spontaanien välikäsittelyjen tai selvennyksien kesken. Varhaiset raportit viittaavat siihen, että järjestelmä käsittelee äänisyöttöä luotettavasti, jopa luonnollisilla taukoilla, mutta vaatii käyttäjän pitämään laitteensa vuorovaikutuksen aikana.
Breaking 🚨: Clauden äänitila on nyt täysin toimiva ja tukee verkkohakua ja tiedostojen latauksia.
Siinä on push-to-puhe ja vieritettävät tekstinäkymät. Se on melko suuri päivitys Claude-mobiilisovellukselle!
* ei ole julkisen käytettävissä vielä pic.twitter.com/lhsxeqthql
-testCatCatCatS 🗞 (@TestingCaTalog). href=”https://twitter.com/testingcatalog/status/1919003910510961078?REF_SRC=TWSRC%5ETFW”Target=”_ Blank”> 4. toukokuuta 2025
-ominaisuudet Claude-tila integroi useita toimintoja. Se tarjoaa neljä äänivaihtoehtoa Mainittu lähteet puhutun vastauksen rinnalla sovelluksen käyttöliittymässä. Tämä käyttöliittymä näyttää keskusteluhistorian vieritettävänä, sivutulla tekstinä. Target=”_ tyhjä”> tukee tiedostojen latauksia , jotta käyttäjät voivat tarjota kuvia tai PDF-asiakirjoja ja keskustella sitten niiden sisällöstä suoraan AI: n kanssa äänikomentojen kautta. Google kehittää myös Gemini Live-sovelluksen. Ominaisuus seuraa viimeaikaista verkkohaun globaalia saatavuutta Claude-mobiilisovelluksessa maaliskuussa.
antropinen on edelleen heidän äänitilansa kehittämistä lisäämällä”Glassy”, viimeisin ääni uusimmassa Claude-sovelluspäivityksessä.
Luulen, että tämä on suosituin ääni. https://t.co/npqfVuw6pj pic.twitter.com/dojyp52bxk
Keskustelu AI-areena
antropinen on edelleen heidän äänitilansa kehittämistä lisäämällä”Glassy”, viimeisin ääni uusimmassa Claude-sovelluspäivityksessä.
Luulen, että tämä on suosituin ääni. https://t.co/npqfVuw6pj pic.twitter.com/dojyp52bxk
Claude’s Push-to-Talk-vuorovaikutusmalli erottaa sen kilpailijoista, jotka toimivat aktiivisesti dynaamisemmalla vuoropuhelun virtauksella. Openai puhdisti chatgPT: n edistyneen äänitila käsittelemään paremmin keskeytyksiä keskeytyksettä ja pyrkivät sileämmälle vaihdoille.
meta, sillä välin yksityiskohtaiset testit kokeellisesta “Full-Duplex”Voice-tila Koko duplex-järjestelmät yrittävät antaa molemmille osapuolille (ihmisille ja AI) puhua samanaikaisesti, aivan kuten luonnollinen puhelu.
Sesame AI: n maaliskuun 2025 esittämän äänimallin esittämisen vaikeutta korostettiin niin realistisen-tarkastaen, että epäröinti ja kompastetut haasteet-
antropisen lähestymistapa eroaa myös multimodaalisessa syöttössä verrattuna joihinkin kilpailijoihin. Vaikka Claude-käyttäjät voivat ladata staattisia tiedostoja, kuten PDF-tiedostoja ja kuvia keskustelua varten, Googlen Gemini Live sai maaliskuussa ominaisuudet, jotka mahdollistavat reaaliaikaisen analyysin elävien älypuhelinkameran syötteiden ja näytön sisällön. Openai oli aiemmin lisännyt live-videotukea ChatgPT: n äänitilaan joulukuussa 2024.
pääsy ja etiikka Voice AI
kuinka käyttäjät käyttävät Clauden äänitilaa pysyy määrittelemättä, mutta markkinoilla on monipuolinen strategia. Openai aloitti ilmaisen tason käyttäjien rajoitetun päivittäisen esikatselun edistyneestä äänitilastaan (käyttämällä vähemmän kykenevää GPT-4O-minimallia) helmikuussa ja varasi rajoittamattoman pääsyn koko GPT-4O-mallin kautta tilaajien maksamiseen. Tämä porrastettu strategia on ristiriidassa Microsoftin kanssa, joka teki samassa kuussa Copilot-ääniominaisuutensa täysin ilmaiseksi.
Asioiden äänimallin puolella Amazonin Nova Sonic-malli, joka on käynnistetty huhtikuussa, keskittyen ilmaisevaan, reaaliaikaiseen puhe-puhe-synteesiin, on käytettävissä Burnrock-alustansa kautta. Puhe-puheiden malleissa pyritään kääntämään puhuttu syöttö suoraan puhuttuun lähtöön, vähentämällä mahdollisesti latenssia ja vangitsemaan enemmän äänekkäästi verrattuna perinteisiin puhe-teksti-puhe-putkilinjoihin. href=”https://cloud.google.com/text-topeech/docs/chirp3-instant-custom-voice”Target=”_ tyhjä”> “välitön räätälöity ääni”-ominaisuus, joka herättää eettisiä kysymyksiä äänen kopioinnista. Xai’s Grok 3-äänitila, joka on käynnistetty helmikuun 2025 X Premium+-tilaajille, sisältää tunnetusti”häikäilemättä”, joka sallii vannon, loukkaukset ja nimenomaisen keskustelun, mikä heijastaa minimaalisten rajoitusten filosofiaa, joka on aivan erilainen kuin tyypillisesti moderoitujen valtavirran avustajien tulosten, kuten SESAME: n tapaaminen. Huijausten äänikloonaus, joka kehottaa keskusteluja siitä, pitäisikö AI-äänien säilyttää keinotekoiset merkinnät. Itse Openai kohtasi eettisen turbulenssin, kun sen piti peruuttaa äänivaihtoehto toukokuussa 2024, koska sen havaitsi samankaltaisuus näyttelijä Scarlett Johansson.