A
antropikus úgy tűnik, hogy készen áll arra, hogy hangbeszélgetéseket hozzon a Claude AI asszisztens mobil alkalmazásába, a pic.twitter.com/lhsxeqthql
–Testingcatalog News 🗞 (@testingcatalg) href=”https://twitter.com/testingcatalog/status/1919003910510961078?ref_src=twsrc%5etfw”cél=”_ üres”> május 4, 2025
A Claude Mode számos funkciót integrál. A négy hang opció -két kategóriába sorolt, két kategóriába sorolt, két kategóriába sorolt, két kategóriába sorolt, két kategóriába sorolt Web-t, amelynek megengedi. idézett források az alkalmazás felületén belüli beszélt válasz mellett. Ez az interfész a beszélgetés előzményeit görgethető, paginált szövegként jeleníti meg. Target=”_ üres”> támogatja a fájlfeltöltéseket , lehetővé téve a felhasználók számára, hogy képeket vagy PDF-dokumentumokat adjanak, majd tartalmát közvetlenül az AI-vel megvitassák a hangparancsokon keresztül. A szolgáltatás a márciusban a Claude mobilalkalmazáson belüli internetes keresés legutóbbi globális elérhetőségét követi. https://t.co/npqfvuw6pj pic.twitter.com/dojyp52bxk
A beszélgetési AI aréna
Claude push-to-beszéd-interakciós modellje elkülöníti a versenytársaktól, amelyek aktívan dolgoznak a dinamikusabb párbeszéd folyamatán. Az Openai finomított Chatgpt fejlett hangmódja a felhasználói szünetek jobb kezelésére megszakítás nélkül, simább cserékre törve. href=”https://ai.meta.com/research/publications/beyond-turn-eaterfaces-synchronous-llms-as-full-duplex-dialogue-agents/”Target=”_ blank”> “teljes-duplex” hangmód Az LLAMA 4-POWERED META APP-hez. Fontos, hogy az ARCHOMÁNYOS SZÁMÍTÁSA, HASZNÁLATOS KORLÁTOZOTT. A teljes duplex rendszerek megkísérelik mindkét fél (emberi és AI) egyidejűleg beszélni, hasonlóan a természetes telefonhíváshoz. Az
antropikus megközelítése a multimodális bemenetekben is különbözik, mint egyes riválisok. Míg a Claude felhasználók olyan statikus fájlokat tölthetnek fel, mint például a PDFS és a képek megbeszélés céljából, addig a Google Gemini Live márciusban megszerezte a funkciókat, lehetővé téve az élő okostelefon-kamera-hírcsatornák és a képernyőn megjelenő tartalom valós idejű elemzését. Az Openai korábban élő video-támogatást adott a Chatgpt hang módjához 2024 decemberében. Az Openai februárban kezdte meg a szabadszintű felhasználók számára korlátozott napi előnézeteket (a kevésbé képes GPT-4O Mini modell használatával), korlátozhatatlan hozzáférést fenntartva a teljes GPT-4O modell segítségével az előfizetők fizetésére. Ez a többszintű stratégia hirtelen ellentétben áll a Microsoft-tal, amely ugyanabban a hónapban a Copilot Voice funkcióit teljesen ingyenesvé tette.
A dolgok hangmodell oldalán, az Amazon Nova Sonic modellje, amelyet áprilisban indítottak, a kifejezett, valós idejű beszéd-beszéd szintézisre összpontosítva, a fejlesztők számára elérhető a fejlesztők számára. A beszéd-beszéd modellek célja a beszélt bemenetek közvetlenül a beszélt outputra történő lefordítása, potenciálisan csökkentve a késleltetést és a vokális árnyalat rögzítését a hagyományos beszéd-textus-beszéd csővezetékekhez képest. href=”https://cloud.google.com/text-to-speech/docs/chirp3-instant-custom-voice”cél=”_ üres”> “azonnali egyedi hang” A hang replikációjának etikai kérdéseit felveti. Az Xai Grok 3 hang módja, amelyet 2025 februárjában indított az X Premium+ előfizetők számára, hírhedten magában foglalja a „nem egyfajta” lehetőséget, amely lehetővé teszi az esküt, a sértéseket és az explicit csevegést, tükrözve a minimális restrikciós filozófiát, amely meglehetősen különbözik a tipikusan moderált outputs-tól. A csalások klónozása, a viták felkeltése arról, hogy az AI hangok meg kell-e tartaniuk a mesterséges markereket. Maga az Openai etikai turbulenciával találkozott, amikor 2024 májusában vissza kellett vonnia egy hangmegosztást Scarlett Johansson színésznővel való észleltség miatt.