Antropico appare pronto a portare conversazioni vocali alla sua applicazione mobile Claude Ai, con la funzione Secondo quanto riferito

L’implementazione iniziale adotta un approccio controllato alla conversazione. A differenza dei sistemi che si impegnano per la modalità vocale di Claude, simile all’uomo completamente fluido, a forma di umano, funziona in base al talk, proprio come Chatgpt prima del lancio della modalità vocale avanzata.

Questo significa che gli utenti articolano la loro query o una dichiarazione, quindi tocca manualmente un pulsante di invio per avere il processo di AI nell’audio. Questo metodo impedisce all’intelligenza artificiale di tagliare gli utenti, ma sacrifica la capacità di interiezioni spontanee o chiarimenti a metà. I primi rapporti suggeriscono che il sistema gestisce in modo affidabile l’input vocale, anche con pause naturali, ma richiede all’utente di tenere il proprio dispositivo durante l’interazione.

Breaking 🚨: la modalità vocale di Claude è ora completamente funzionale e supporta la ricerca Web e i caricamenti di file.

Viene fornito con viste push-to-talk e di testo scorrevoli. Sarà un grande aggiornamento per l’app Claude Mobile!

* Non disponibile al pubblico ancora pic.twitter.com/lhsxeqthql

-testcatalog News 🗞testAlog @TeSGAG) 4 maggio, 2025

oltre chat

quattro opzioni vocali -due categorate come maschio come femmina-che consentono alcune preferenze dell’utente. Fonti citate insieme alla risposta parlata all’interno dell’interfaccia dell’app. Questa interfaccia visualizza la cronologia della conversazione come testo scorrevole e paginato.

Forse, in particolare, la modalità vocale Supporta i caricamenti di file , consentendo agli utenti di fornire immagini o documenti PDF e quindi discutere il loro contenuto direttamente con l’IA tramite comandi vocali, una capacità che Google sta sviluppando anche per Gemini Live. La funzione segue la recente disponibilità globale della ricerca Web all’interno dell’app Claude Mobile a marzo.

antropico continua a sviluppare la loro modalità vocale aggiungendo”vetrosa”, l’ultima voce nell’indirizzo aggiornamento dell’app di Claude.

Sto pensando che questa sarà la voce più popolare. ; target=”_ blank”> pic.twitter.com/dojyp52bxk

-m1 (@m1astra) “full duplex”in modalità vocale Per il suo llama 4 power ai Ai app, specificato per essere accusato di essere superato, seppure di essere superato. I sistemi full-duplex tentano di consentire a entrambe le parti (umane e AI) di parlare contemporaneamente, proprio come una telefonata naturale.

La difficoltà nel perfezionare la stimolazione conversazionale naturale è stata sottolineata da una demo di Sesame AI con un modello di vocale così realistico-Completo-Completo con esitazioni e percili-che non è stato nervoso, ma si è ancora affrontato con le demo di organizzazione vocale. L’approccio di

​​antropico differisce anche nell’input multimodale rispetto ad alcuni rivali. Mentre gli utenti di Claude possono caricare file statici come PDF e immagini per la discussione, a marzo Gemini Live ha guadagnato funzionalità di Google per consentire l’analisi in tempo reale dei feed della fotocamera per smartphone in diretta e dei contenuti sullo schermo. Openai aveva precedentemente aggiunto supporto video in diretta alla modalità vocale di Chatgpt nel dicembre 2024.

Accesso ed etica in Voice Ai

Il modo in cui gli utenti accederanno alla modalità vocale di Claude rimane non specificato, ma il mercato mostra varie strategie. Openai ha iniziato a offrire utenti di livello gratuito le anteprime giornaliere limitate della sua modalità vocale avanzata (utilizzando il Mini Mini Mini GPT-4O meno capace) a febbraio, riservando un accesso senza restrizioni tramite l’intero modello GPT-4O per gli abbonati pagati. Questa strategia a più livelli contrasta bruscamente con Microsoft, che, nello stesso mese, ha reso le sue caratteristiche vocali del copilota completamente gratuite.

Sul lato modello vocale delle cose, il modello Nova Sonic di Amazon, lanciato ad aprile con un focus sulla sintesi espressiva e in tempo reale, è disponibile per gli sviluppatori tramite la sua piattaforma Bedrock. I modelli vocali-vocali mirano a tradurre l’input parlato direttamente all’output parlato, riducendo potenzialmente latenza e catturando una sfumatura vocale più rispetto alle tradizionali condutture parlato-te-text-to-dispech. href=”https://cloud.google.com/text-to-speech/docs/chirp3-instant-custom-voice”target=”_ blank”>”Voce personalizzata istantanea” che solleva domande etiche sul consenso per la replicazione della voce.

La personalità e i confini degli assistenti vocali sono anche sottili. La modalità vocale di Grok 3 di Xai, lanciata febbraio 2025 per X Premium+ abbonati, include notoriamente un’opzione”sfrenata”che consente il giuramento, gli insulti e la chat esplicita, che riflettono una filosofia di minima restrizione, anch’essa, anche dai risultati del potenziale di base, anche dai risultati del potenziale di mainstream. Clonazione per truffe, spingendo discussioni sul fatto che le voci di intelligenza artificiale debbano conservare marcatori artificiali. Openai stessa ha incontrato la turbolenza etica quando ha dovuto ritirare un’opzione vocale nel maggio 2024 a causa della sua somiglianza percepita con l’attrice Scarlett Johansson.

Categories: IT Info