Anthrope parece estar listo para llevar conversaciones de voz a su aplicación móvil Claude AI Assistant, con la función informado funcional y se acerca a la actualidad internamente. El próximo modo de voz de Claude señala el movimiento de Anthrope en la bulliciosa arena de la interacción IA impulsada por la voz, actualmente poblada por ofertas de OpenAi, Google, Meta y otros.
La implementación inicial adopta un enfoque controlado para la conversación. A diferencia de los sistemas que se esfuerzan por el modo de voz completamente fluido y humano, el modo de voz de Claude funciona de manera intensiva, al igual que ChatGPT antes del lanzamiento del modo de voz avanzado.
Esto significa que los usuarios articulan su consulta o declaración, luego toque manualmente un botón de envío para que el AI procese el audio. Este método evita que la IA elimine a los usuarios, pero sacrifica la capacidad de interjecciones o aclaraciones espontáneas a mitad del pensamiento. Los primeros informes sugieren que el sistema maneja la entrada de voz de manera confiable, incluso con pausas naturales, pero requiere que el usuario mantenga su dispositivo durante la interacción.
Breaking 🚨: el modo de voz de Claude ahora es completamente funcional y admite la búsqueda web y las cargas de archivos.
Viene con vistas de texto de empuje y desplazable. ¡Será una gran actualización para la aplicación móvil de Claude!
* No está disponible para el público todavía pic.twitter.com/lhsxeqthql
-probando las noticias 🗞 🗞 🗞 🗞 🗞 🗞 🗞 🗞 🗞 🗞testingcatalog). href=”https://twitter.com/testingcatalog/status/1919003910510961078?ref_src=twsrc%5etfw”target=”_ en blanco”> 4 de mayo, 2025
Características más allá El modo Claude integra varias funcionalidades. Ofrecerá Cuatro opciones de voz -dos categorizadas como hombres, dos como mujeres, permitiendo una preferencia de usuario. Fuentes citaron junto con la respuesta hablada dentro de la interfaz de la aplicación. Esta interfaz muestra el historial de conversación como texto desplazable y paginado.
Quizás lo más notable, el modo de voz Admite cargas de archivo , lo que permite a los usuarios proporcionar imágenes o documentos PDF y luego discutir sus contenidos directamente con la IA a través de los comandos de voz, una capacidad de Google también está desarrollando para Gemini Live. La función sigue la reciente disponibilidad global de la búsqueda web dentro de la aplicación móvil Claude en marzo.
Anthrope continúa desarrollando su modo de voz agregando”vidrioso”, la última voz en la nueva actualización de la aplicación Claude.
Estoy pensando que esta será la voz más popular. https://t.co/npqfvuw6pj pic.twitter.com/dojyp52bxk
El modelo de interacción Push-to-Talk de Claude, el modelo de interacción con los competidores, que trabaja activamente en el flujo de diálogo más dinámico de Claude. El modo de voz avanzado de Chatgpt de Openai refinado para manejar mejor las pausas de los usuarios sin interrupción, apuntando a intercambios más suaves.
meta, mientras tanto, pruebas detalladas en abril de un experimental “Full-duplex”Modo de voz Para su aplicación Meta AI de 4-Powered Meta, se acomodó para acomodar este betlepspappent, aunque se acomodó este betlepape. Los sistemas Full-Duplex intentan permitir que ambas partes (humanas e IA) hablen simultáneamente, al igual que una llamada telefónica natural.
La dificultad para perfeccionar el ritmo conversacional natural fue subrayado por la demostración de Sesame Ai de marzo de 2025 de un modelo de voz tan realista tan realista con el modelador de la voz y los talleres y los tollos, los tintos, todavía no tienen problemas de hudos. El enfoque de
antrópico también difiere en la entrada multimodal en comparación con algunos rivales. Si bien los usuarios de Claude pueden cargar archivos estáticos como PDF e imágenes para su discusión, Gemini Live Live de Google ganó funciones en marzo permitiendo un análisis en tiempo real de las alimentos de la cámara de teléfonos inteligentes en vivo y el contenido en pantalla. Operai había agregado previamente el soporte de video en vivo al modo de voz de ChatGPT en diciembre de 2024.
Acceso y ética en Voice Ai
La forma en que los usuarios accederán al modo de voz de Claude permanecen sin especificar, pero el mercado muestra estrategias variadas. Operai comenzó a ofrecer avances previos diarios limitados de usuarios de nivel gratuito de su modo de voz avanzado (utilizando el modelo GPT-4O menos capaz) en febrero, reservando el acceso sin restricciones a través del modelo GPT-4O completo para suscriptores de pago. Esta estrategia escalonada contrasta bruscamente con Microsoft, que, en el mismo mes, hizo sus características de voz de copiloto completamente gratuitas.
En el lado del modelo de voz de las cosas, el modelo Nova Sonic de Amazon, lanzado en abril con un enfoque en la síntesis expresiva de voz a voz en tiempo real, está disponible para los desarrolladores a través de su plataforma de placa. Los modelos de voz a voz tienen como objetivo traducir la entrada hablada directamente a la salida hablada, reduciendo potencialmente la latencia y capturando más matices vocales en comparación con las tuberías tradicionales de voz a texto a voz.
Modelo de voz Chirp 3 HD de Google, integrado en Vértice AI en March, también se dirige a los desarrolladores, ofrece estilos de voz personalizables y un “Voice personalizado instantáneo” Las características que plantean preguntas éticas sobre el consentimiento para la replicación de voz.
La personalidad y los límites de los asistentes de voz también son divergentes. El modo de voz GROK 3 de XAI, lanzado en febrero de 2025 para X Premium+ suscriptores, incluye notoriamente una opción”desquiciada”que permite juramentar, insultos y chat explícito, que refleja una filosofía de una restricción mínima, como se ve con las salidas típicamente moderadas de los posibles asistentes. Clonación de voz sofisticada para estafas, lo que provoca discusiones sobre si las voces de IA deberían retener marcadores artificiales. Operai se encontró con turbulencia ética cuando tuvo que retirar una opción de voz en mayo de 2024 debido a su similitud percibida con la actriz Scarlett Johansson.