Anthropic Claude Voice-modus nadert de start met web zoeken en discussies over het uploaden van bestand

Anthropic lijkt klaar om spraakgesprekken te brengen naar zijn Claude AI-assistent-mobiele applicatie, met de functie

* nog niet beschikbaar voor het publiek vier spraakopties -Twee categoriseerde als man, twee Geciteerde bronnen naast de gesproken reactie in de interface van de app. Deze interface toont de gespreksgeschiedenis als scrollbare, gepagineerde tekst.

Misschien wel het meest, de spraakmodus ondersteunt bestandsuploads , waardoor gebruikers afbeeldingen of PDF-documenten kunnen verstrekken en vervolgens hun inhoud rechtstreeks met de AI via spraakopdrachten bespreken, een mogelijkheden die Google ook ontwikkelt voor Gemini Live. De functie volgt op de recente wereldwijde beschikbaarheid van webzoekopdrachten in de Claude Mobile App in maart.

Anthropic blijft hun spraakmodus ontwikkelen met”Glassy”, de nieuwste stem in de nieuwste claude-app-update.

Ik denk dat dit de meest populaire stem zal zijn. https://t.co/npqfvuw6pj pic.twitter.com/dOjYp52BXK

— M1 (@M1Astra) April 29, 2025

De conversatie AI Arena

Claude’s push-to-talk interactiemodel onderscheidt het van concurrenten die actief werken aan een meer dynamische dialoogstroom. Openai verfijnde de geavanceerde spraakmodus van Chatgpt om gebruikerspauzes zonder onderbreking beter te verwerken, gericht op soepelere uitwisselingen.

Meta, ondertussen, gedetailleerde tests in april van een experimentele “full-duplex”spraakmodus Voor zijn llama 4-powered meta ai-app, specifiek ontworpen om te accommodatiebeperking, hoewel dit bèta was beperkt. Full-Duplex-systemen proberen beide partijen (mens en AI) tegelijkertijd te laten spreken, net als een natuurlijk telefoongesprek.

De moeilijkheid bij het perfectioneren van natuurlijke gesprekken werd onderstreept door Sesam AI’s maart 2025 Demo van een spraakmodel zo realistisch-Ingeeft met aarzeling en stait-dat is enkele testers, nog steeds verminderde uitdagingen met orgel. De benadering van

Anthropic verschilt ook in multimodale input in vergelijking met sommige rivalen. Terwijl Claude-gebruikers statische bestanden zoals PDF’s en afbeeldingen voor discussie kunnen uploaden, behaalde Google’s Gemini Live in maart in maart die realtime analyse van live smartphonecamerafeeds en inhoud op het scherm mogelijk maken. OpenAI had eerder live video-ondersteuning toegevoegd aan de spraakmodus van Chatgpt in december 2024.

Toegang en ethiek in Voice AI

Hoe gebruikers toegang krijgen tot de spraakmodus van Claude blijft niet gespecificeerd, maar de markt toont verschillende strategieën. OpenAI begon in februari met het aanbieden van Free-Tier User Limited Daily Previews van zijn geavanceerde spraakmodus (met behulp van het minder capabele GPT-4O Mini-model), waardoor onbeperkte toegang werd gereserveerd via het volledige GPT-4O-model voor betalende abonnees. Deze gelaagde strategie contrasteert scherp met Microsoft, die in dezelfde maand zijn Copilot-stemfuncties volledig gratis heeft gemaakt.

Op de spraakmodelzijde van de dingen is het Nova Sonic-model van Amazon, gelanceerd in april, met een focus op expressieve, realtime spraak-speech-synthese, beschikbaar is voor ontwikkelaars via het bedrockplatform. Spraak-to-speech-modellen zijn gericht op het rechtstreeks vertalen van gesproken invoer naar gesproken uitvoer, mogelijk het verminderen van latentie en het vastleggen van meer vocale nuance in vergelijking met traditionele spraak-to-text-to-speech pipelines.

Google’s Chirp 3 HD-spraakmodel, geïntegreerd in Vertex AI in maart, target ook de ontwikkeling van ontwikkelaars, ontwikkelaars van de ontwikkelaars van de ontwikkelaar href=”https://cloud.google.com/text-to-speech/docs/chirp3-instant-custom-voice”target=”_ blank”>”Instant aangepaste stem” functie die ethische vragen oproept over toestemming voor stemreplicatie.

de persoonlijkheid en grenzen van spraakmedewerkers zijn ook diverse. XAI’s GROK 3-spraakmodus, gelanceerd in februari 2025 voor X Premium+-abonnees, omvat berucht een”losgeslagen”optie die beelden, beledigingen en expliciete chat toestaat, die een filosofie van minimale beperking weerspiegelt, ook de typisch gemodereerde output van mainstream-assistenten. Klonen voor oplichting, waardoor discussies worden gevraagd of AI-stemmen kunstmatige markers moeten behouden. Openai zelf kwam ethische turbulentie tegen toen het in mei 2024 een stemoptie moest intrekken vanwege de waargenomen gelijkenis met actrice Scarlett Johansson.

Categories: IT Info

Anthropic Claude Voice-modus nadert de start met web zoeken en discussies over het uploaden van bestand

Published by All Things Windows on May 5, 2025

De conversatie AI Arena

Toegang en ethiek in Voice AI

IT Info

Recraft landt $ 30 miljoen serie B voor AI Image Generator gericht op merkcontrole

IT Info

Openai bereikt een overeenkomst van $ 3 miljard om coderingassistent Windsurf te verwerven

IT Info

OpenAI-backtracks bij herstructurering, non-profit arm behoudt controle na massale druk

Anthropic Claude Voice-modus nadert de start met web zoeken en discussies over het uploaden van bestand

Published by All Things Windows on May 5, 2025

De conversatie AI Arena

Toegang en ethiek in Voice AI

Related Posts

IT Info

Recraft landt $ 30 miljoen serie B voor AI Image Generator gericht op merkcontrole

IT Info

Openai bereikt een overeenkomst van $ 3 miljard om coderingassistent Windsurf te verwerven

IT Info

OpenAI-backtracks bij herstructurering, non-profit arm behoudt controle na massale druk