antropinen näyttää olevan valmis tuomaan äänikeskusteluja Claude A-avustaja-mobiilisovellukseensa ominaisuudella ilmoitettu funktionaalinen ja lähivuus A Tuleva Claude-äänitila merkitsee antropian siirtymistä ääniohjatun AI-vuorovaikutuksen vilkkaaseen areenalle, jonka tällä hetkellä asuttavat Openain, Googlen, Meta: n ja muiden tarjoukset. Toisin kuin järjestelmät, jotka pyrkivät täysin sujuvaan, ihmisen kaltaiseen taaksepäin, Claude’s Voice-tila toimii painopisteellä, aivan kuten chatgpt ennen edistyneen äänitilan käynnistämistä.

Tämä tarkoittaa, että käyttäjät ilmaisevat kyselynsä tai lausuntonsa, napauttavat sitten lähetyspainiketta manuaalisesti AI-prosessin saamiseksi. Tämä menetelmä estää AI: tä katkaisemasta käyttäjiä, mutta uhraa spontaanien välikäsittelyjen tai selvennyksien kesken. Varhaiset raportit viittaavat siihen, että järjestelmä käsittelee äänisyöttöä luotettavasti, jopa luonnollisilla taukoilla, mutta vaatii käyttäjän pitämään laitteensa vuorovaikutuksen aikana.

Breaking 🚨: Clauden äänitila on nyt täysin toimiva ja tukee verkkohakua ja tiedostojen latauksia.

Siinä on push-to-puhe ja vieritettävät tekstinäkymät. Se on melko suuri päivitys Claude-mobiilisovellukselle!

* ei ole julkisen käytettävissä vielä pic.twitter.com/lhsxeqthql

-testCatCatCatS 🗞 (@TestingCaTalog). href=”https://twitter.com/testingcatalog/status/1919003910510961078?REF_SRC=TWSRC%5ETFW”Target=”_ Blank”> 4. toukokuuta 2025

-ominaisuudet Claude-tila integroi useita toimintoja. Se tarjoaa neljä äänivaihtoehtoa Mainittu lähteet puhutun vastauksen rinnalla sovelluksen käyttöliittymässä. Tämä käyttöliittymä näyttää keskusteluhistorian vieritettävänä, sivutulla tekstinä. Target=”_ tyhjä”> tukee tiedostojen latauksia , jotta käyttäjät voivat tarjota kuvia tai PDF-asiakirjoja ja keskustella sitten niiden sisällöstä suoraan AI: n kanssa äänikomentojen kautta. Google kehittää myös Gemini Live-sovelluksen. Ominaisuus seuraa viimeaikaista verkkohaun globaalia saatavuutta Claude-mobiilisovelluksessa maaliskuussa.

antropinen on edelleen heidän äänitilansa kehittämistä lisäämällä”Glassy”, viimeisin ääni uusimmassa Claude-sovelluspäivityksessä.

Luulen, että tämä on suosituin ääni. https://t.co/npqfVuw6pj pic.twitter.com/dojyp52bxk

-m1 (@m1astra)

Keskustelu AI-areena

Claude’s Push-to-Talk-vuorovaikutusmalli erottaa sen kilpailijoista, jotka toimivat aktiivisesti dynaamisemmalla vuoropuhelun virtauksella. Openai puhdisti chatgPT: n edistyneen äänitila käsittelemään paremmin keskeytyksiä keskeytyksettä ja pyrkivät sileämmälle vaihdoille.

meta, sillä välin yksityiskohtaiset testit kokeellisesta “Full-Duplex”Voice-tila Koko duplex-järjestelmät yrittävät antaa molemmille osapuolille (ihmisille ja AI) puhua samanaikaisesti, aivan kuten luonnollinen puhelu.

Sesame AI: n maaliskuun 2025 esittämän äänimallin esittämisen vaikeutta korostettiin niin realistisen-tarkastaen, että epäröinti ja kompastetut haasteet-

antropisen lähestymistapa eroaa myös multimodaalisessa syöttössä verrattuna joihinkin kilpailijoihin. Vaikka Claude-käyttäjät voivat ladata staattisia tiedostoja, kuten PDF-tiedostoja ja kuvia keskustelua varten, Googlen Gemini Live sai maaliskuussa ominaisuudet, jotka mahdollistavat reaaliaikaisen analyysin elävien älypuhelinkameran syötteiden ja näytön sisällön. Openai oli aiemmin lisännyt live-videotukea ChatgPT: n äänitilaan joulukuussa 2024.

pääsy ja etiikka Voice AI

kuinka käyttäjät käyttävät Clauden äänitilaa pysyy määrittelemättä, mutta markkinoilla on monipuolinen strategia. Openai aloitti ilmaisen tason käyttäjien rajoitetun päivittäisen esikatselun edistyneestä äänitilastaan ​​(käyttämällä vähemmän kykenevää GPT-4O-minimallia) helmikuussa ja varasi rajoittamattoman pääsyn koko GPT-4O-mallin kautta tilaajien maksamiseen. Tämä porrastettu strategia on ristiriidassa Microsoftin kanssa, joka teki samassa kuussa Copilot-ääniominaisuutensa täysin ilmaiseksi.

Asioiden äänimallin puolella Amazonin Nova Sonic-malli, joka on käynnistetty huhtikuussa, keskittyen ilmaisevaan, reaaliaikaiseen puhe-puhe-synteesiin, on käytettävissä Burnrock-alustansa kautta. Puhe-puheiden malleissa pyritään kääntämään puhuttu syöttö suoraan puhuttuun lähtöön, vähentämällä mahdollisesti latenssia ja vangitsemaan enemmän äänekkäästi verrattuna perinteisiin puhe-teksti-puhe-putkilinjoihin. href=”https://cloud.google.com/text-topeech/docs/chirp3-instant-custom-voice”Target=”_ tyhjä”> “välitön räätälöity ääni”-ominaisuus, joka herättää eettisiä kysymyksiä äänen kopioinnista. Xai’s Grok 3-äänitila, joka on käynnistetty helmikuun 2025 X Premium+-tilaajille, sisältää tunnetusti”häikäilemättä”, joka sallii vannon, loukkaukset ja nimenomaisen keskustelun, mikä heijastaa minimaalisten rajoitusten filosofiaa, joka on aivan erilainen kuin tyypillisesti moderoitujen valtavirran avustajien tulosten, kuten SESAME: n tapaaminen. Huijausten äänikloonaus, joka kehottaa keskusteluja siitä, pitäisikö AI-äänien säilyttää keinotekoiset merkinnät. Itse Openai kohtasi eettisen turbulenssin, kun sen piti peruuttaa äänivaihtoehto toukokuussa 2024, koska sen havaitsi samankaltaisuus näyttelijä Scarlett Johansson.

Categories: IT Info