OpenAI heeft geüpgraded spraak-naar-tekst-en tekst-naar-spraakmodellen gelanceerd, de transcriptie-nauwkeurigheid verbeterd en de aanpassingsopties uitbreiden voor AI-gegenereerde stemmen.

Geïntegreerd in Openai’s API, deze verbeteringsconcurrenties voor het creëren van meer flexibele tools in AI, Accompetibility-tools. Technologie, met Google, Microsoft en opkomende spelers zoals Sesam AI die de grenzen van synthetisch stemrealisme verleggen.

Verbeterde speech-to-text: Fixing-transcriptiefouten en AI Hallucinations

Openai’s nieuwe spraak”> spraak”> spraak”> spraak”> spraak”> spraak”> spraak”> spraak”> spraak”> spraak”> spraak”> spraak”> spraak”> Belangrijke upgrades in nauwkeurigheid, woordherkenning en contextueel begrip, het aanpakken van langdurige problemen in door AI gegenereerde transcripties.

Het vorige model, gefluister, werd veel gebruikt voor meertalige transcriptie, maar geconfronteerd met kritiek op het hallucinate Woorden en zinnen die niet in de oorspronkelijke audio waren. bezorgdheid over AI-betrouwbaarheid in juridische, medische en zakelijke aanvragen. Deze hallucinaties vonden vaak plaats bij het hanteren van audio van lage kwaliteit, zware accenten of complexe zinsstructuren.

De nieuwe modellen zijn bedoeld om deze problemen te verminderen met verbeterde woordfoutenpercentages, een betere afhandeling van accenten en dialecten en hogere weerstand tegen ruisinterferentie. Automatisering en AI-aangedreven toegankelijkheidstools.

Bron: OpenAI

Hoewel OpenAI claimt dat deze updates hallucinaties aanzienlijk verminderen, zullen onafhankelijke evaluaties nodig zijn om de nauwkeurigheidsverbeteringen ervan te verifiëren. AI-transcriptiemodellen worstelen nog steeds in randgevallen, met name bij het afhandelen van overlappende spraak, zwaar achtergrondruis of informele conversatietaal.

Tekst-to-speech-upgrades: meer realistische AI-stemmen

Naast de transcriptieverbeteringen, heeft Openai ook geïntroduceerd Het nieuwe GPT-4O Mini TTS-tekst-to-speech-model Ontworpen om door AI gegenereerde stemmen expressiever, aanpasbaarder en menselijker te maken.

Het model ondersteunt nu negen vooraf ingestelde stemmen href=”https://openai.com/index/inintroducing-our-next-Generation-audio-models/”target=”_ blank”> Volgens openai “Deze modellen bieden een verbeterde transcriptie-nauwkeurigheid, verminderde latentie en verbeterde stemproductie om een ​​toespraak te maken. Concurrerend, met grote vooruitgang van rivalen zoals Google en Microsoft. Het nieuwe CHIRP 3 HD-spraakmodel van Google zorgt voor realtime aanpassing van de toon.

Een van de meest controversiële ontwikkelingen komt van Sesam AI, wiens AI-gegenereerde stemmen Mimic Human Imperfections Mimic Human Imperfections-zoals aarzeling en tonale verschuivingen-het is ook een bijna-onderscheidbare simulatie van reële menselijke toespraak. Verhoogde ethische zorgen over door AI gegenereerde verkeerde informatie en fraude.

[ingebedde inhoud]

AI Voice Ethics: Deepfakes, Toestemming en veiligheidsrisico’s

Het groeiende realisme van AI-gegenereerde stemmen heeft bezorgdheid geleid over failles, imponement en consent viools. Axios rapporten dat AI-GENERED-stemschendingen toegenomen, met criminelen die worden geëxeciteerd naar executives. Een stem repliceren met slechts een paar seconden audio heeft alarmen verhoogd bij cybersecurity-experts.

Openai zelf heeft te maken gehad met spraakmakende kritiek op stemethiek. In mei 2024 verwijderde het bedrijf een van zijn door AI gegenereerde stemmen, Sky, nadat gebruikers zijn gelijkenis met actrice Scarlett Johansson opmerkten. Johansson verklaarde later dat ze’nooit open a-toestemming had verleend om haar stem te gebruiken.’

De controverse leidde tot discussies over AI-stemklonen en intellectuele eigendomsrechten.

In reactie daarop benadrukte Openai dat de nieuwe stemmen zijn gebouwd uit synthetische trainingsgegevens, in plaats van opnames van echte mensen. Het bedrijf moet echter nog volledige transparantie bieden over de exacte waarborgen die het heeft geïmplementeerd om ongeautoriseerde stemreplicatie te voorkomen.

Naast spraak: Openai’s visie voor AI-aangedreven assistenten

Openai positioneert zijn spraakmodellen als onderdeel van een grotere inspanning om autonome AI-assistenten te ontwikkelen. Het bedrijf heeft deze modellen geïntegreerd met zijn Agent SDK Het inschakelen van ontwikkelaars voor virtuele AI-systemen voor virtuele AISTEN, Customer Service. onderweg in de hele branche. Financial Times Rapporten die open ai verwacht dat spraakgestuurde AI een mainstream-interface wordt voor computers door 2025, met een complexe taak. Ondertussen, google is insluiting generatieve ai in productiviteitsapplicaties zoals Gemini canVas en Microsoft is op. Copilot-ecosysteem.

Met door AI gegenereerde stemmen die steeds niet te onderscheiden worden van menselijke spraak, blijft de balans tussen technologische vooruitgang en verantwoorde inzet een kritieke kwestie. De nieuwste modellen van Openai tonen duidelijke vooruitgang in realisme en bruikbaarheid, maar de ethische en veiligheidsproblemen rond AI-aangedreven spraaksynthese zijn verre van opgelost.

Categories: IT Info