OpenAI har lanserat uppgraderat tal-till-text och text-till-tal-modeller, förbättrat transkriptionsnoggrannhet och utvidgar anpassningsalternativ för AI-genererade röster.

Integrerade i OpenAI: s API, dessa förbättringar syftar till att ge utvecklare som är mer flexibla verktyg för att skapa konversation AI, tillgänglighetslösningar och röstdrivna applikationer. Teknik, med Google, Microsoft och nya spelare som Sesame AI som driver gränserna för syntetisk röstrealism.

>

Förbättrad tal-till-text: Fixa transkriptionsfel och AI Hallucinations

oenai’s New Talmodeller GPT-4O-mini-transbriberad Introducera stora uppgraderingar i noggrannhet, ordigenkänning och kontextuell förståelse, som hanterade långvariga frågor i ai-genererade transkriptioner.

Den tidigare modellen, viskare, var allmänt för flerspråkig transkription men mött kritik för dess tendens till hallucinatord och fraser var inte i den originella audio. I 80% av de analyserade offentliga mötesutskrifterna, vilket väcker oro över AI-tillförlitlighet inom juridiska, medicinska och affärsapplikationer. Dessa hallucinationer inträffade ofta vid hantering av ljud av låg kvalitet, tunga accenter eller komplexa meningsstrukturer.

De nya modellerna syftar till att mildra dessa problem med förbättrade ordfelfrekvenser, bättre hantering av accenter och dialekter och högre motstånd mot brusinterferenser. Automation och AI-driven tillgänglighetsverktyg.

Source: OpenAI

Medan OpenAI hävdar att dessa uppdateringar avsevärt minskar hallucinationer, kommer oberoende utvärderingar att vara nödvändiga för att verifiera dess noggrannhetsförbättringar. AI-transkriptionsmodeller kämpar fortfarande i kantfall, särskilt när han hanterar överlappande tal, tungt bakgrundsbrus eller informellt konversationsspråk.

Text-to-speech uppgraderingar: mer realistiska AI-röster

tillsammans med sina transkriptionsförbättringar har OpenAI också introducerat den nya GPT-4O mini tts text-to-speech-modellen Utformad för att göra ai-genererade röster mer uttrycksfulla, anpassningsbara och mänskliga.

modellerna nio supporten nio preset, tillåt, tillåt, tillåt, tillåtna, tillåtna, tillåter, och anpassningsbara, och mänskliga ton. Leverans.

Enligt OpenAI ,”Dessa modeller erbjuder förbättrad transkriptionskontroll, reducerad latens och förbättrad röstuttryck för att ge AI-PERPERED TEALPERATION TELAGE TEALATIVE TEALATIVE TEALATION.

AI-röstindustrin blir allt mer konkurrenskraftig, med stora framsteg från rivaler som Google och Microsoft. Google’s new Chirp 3 HD Voice Model allows for real-time adaptation of tone.

One of the most controversial developments comes from Sesame AI, whose AI-generated voices mimic human imperfections—such as hesitations and tonal shifts—creating a near-indistinguishable simulation of real human speech.

While this advancement makes AI more natural in conversation, it has also Uppförda etiska problem över AI-genererad felinformation och bedrägeri.

[inbäddat innehåll]

AI Röstetik: Deepfakes, samtycke och säkerhetsrisker

Den växande realismen av AI-genererade röster har lett till oro över bedrägeri, imponerande och samtycke. Axios rapporter att ai-genererade röstbedrägerier ökar, med kriminella som använder klonade röster till impersonat, familjemedlemmar, eller kundtjänst. Bara några sekunder av ljud har väckt larm bland cybersäkerhetsexperter.

openai själv har mött högprofil kritik över röstetik. I maj 2024 tog företaget bort en av sina AI-genererade röster, Sky, efter att användare noterade dess likhet med skådespelerskan Scarlett Johansson. Johansson uppgav senare att hon”aldrig hade beviljat Openai tillåtelse att använda sin röst.”

Kontroversen utlöste diskussioner om AI-röstkloning och immateriella rättigheter.

Som svar betonade OpenAI att dess nya röster är byggda från syntetiska träningsdata, snarare än inspelningar av riktiga människor. Företaget har emellertid ännu inte tillhandahållit full öppenhet på de exakta skyddsåtgärderna som det har implementerat för att förhindra obehörig röstreplikation.

Utöver tal: OpenAI: s vision för AI-drivna assistenter

openai positionerar sina talmodeller som en del av en större ansträngning för att utveckla autonomous AI-assistenter. Företaget har integrerat dessa modeller med sina Agent SDK , aktivera utvecklare till att bygga röstbaserade ai-system för dygdliga assistent, kundtjänst, kundtjänst, och kunden. pågår över branschen. Finansiella tider Rapporterar att OpenAI Expects Voice-driven AI för att bli en mainstream-interface för Computing av 202, med 202, med 202 år. Meanwhile, Google is embedding generative AI into productivity applications like Gemini Canvas, and Microsoft is expanding AI-driven voice capabilities within Dess copilotekosystem.

Med AI-genererade röster blir allt mer oskiljbara från mänskligt tal, är balansen mellan teknisk framsteg och ansvarsfull distribution en kritisk fråga. Openais senaste modeller visar tydliga framsteg inom realism och användbarhet, men de etiska och säkerhetsproblemen kring AI-driven röstsyntes är långt ifrån löst.

Categories: IT Info