Kunstig intelligens er ikke lenger bare å forbedre stemmesyntese-det lager maskiner som snakker som virkelige mennesker. De siste AI-talemodellene genererer ikke bare glatte, naturlige klingende setninger; De introduserer nøling, feiluttrykk og tonevariasjoner, og etterligner de subtile ufullkommenhetene i menneskets tale.
Noen testere har funnet dette realismen som er urovekkende, ettersom AI-genererte stemmer som nå føles som om denne skiftet er en samtale.
blant de mest strikende som er til å ha en annen samtale. Kunstig tale utvikler Uskriptet.
sesam AIs hyperrealistiske tilnærming
Sesame AI har presset grensene for syntetisk tale ved å designe Ai-genererte stemmer som er tradisjonelle tekst-til-tekster.
ulike konvensjonelle AI-assistent-hjelpemodus.
ulik konvensjoner som er til å presentere Tekst-til-tale-tale. Ufullkommenheter som får dem til å høres mer naturlige ut. Disse inkluderer subtile tale-uregelmessigheter som nøling, mindre snubler, og til og med endringer i tonehøyde og tempo som etterligner menneskelig usikkerhet.
En av Sesame AIs viktigste innovasjoner er dens samtale tale-modell (CSM), en stemmemodell som er i stand til å uttrykkelig samtaletilpasning, som betyr at den dynamisk justerer tone og hastighet basert på innspill. Dette gjør at AI kan svare på måter som føles mer følelsesmessig autentisk snarere enn mekanisk forhåndsskripet.
Systemet er designet for å oppdage pauser og avbrudd i sanntid, og simulere måten folk naturlig justerer talemønster i ansikt til ansikt.
Demo of a samtale med multiple taler (kilde: sese ai)
demo av en samtale med multiple taler (kilde: sese ai)
demo av en samtale med multiple tale mønster i ansikt til ansikt.
demo av en samtale med flere foredragsholdere med flere talemønster i mønster (kilde til ansikt. href=”https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice”> er bygget på en avansert dyp læringsramme som er trent på enorme datasett av den virkelige verden tale. I motsetning til tradisjonelle talemodeller som er avhengige av sammenkoblingssyntese eller statistiske parametriske modeller, benytter Sesame nevrale-baserte null-skudd stemmetilpasning.
Dette betyr at systemet kan generere nye, unike stemmer som opprettholder en konsistent identitet på forskjellige samtaler uten å kreve omfattende finjustering.
tillegg, sesese, sSesSame. Svar basert på samtaleflyt. Dette gjør det forskjellig fra de fleste aktuelle AI-stemmeassistenter, som genererer hver respons uavhengig av tidligere utvekslinger.
Med denne tilnærmingen kan Sesame AIs system opprettholde vokal konsistens i utvidede interaksjoner, og skifter mellom tilfeldige og formelle toner, avhengig av hvordan samtalen utvikler seg.
utover dens naturlige tale, seseNe Ai er også en tale. Dybde av AI-stemmer ved å gjenskape hvordan mennesker uttrykker stemning gjennom variasjoner i tonehøyde, volum og rytme.
Demo av en samtale som viser kontekstuell ekspressivitet (kilde: Sesame AI)
Dette systemet blir testet for applikasjoner i AI-drevet virtuell følgesvenn, Accessibility Tool og kundeservice Automation.
ses s. Sier sin pund. Engelske data, med noen tilfeldige flerspråklige evner som vises på grunn av datasettforurensning, selv om det ikke fungerer bra på andre språk ennå.
Modellen drar heller ikke nytte av forhåndsutdannede språkmodeller, noe selskapet planlegger å endre. I løpet av de neste månedene ønsker Sesame AI å skalere opp modellstørrelse, utvide språkstøtte til 20+ språk og utforske integrering av forhåndsutdannede modeller for å bygge mer avanserte multimodale systemer.
Mens CSM allerede produserer naturlig klingende tale, sliter den fortsatt med samtalen-tings som snu. Hva dette betyr Du kan finne ut med Sesame ASIs interaktive demo hvor du kan chatte med to av AI-tegn.
Bildet til å chatre-realistisk. . 2023, som markerer sitt første skritt mot interaktive AI-drevne samtaler. Imidlertid var det først i juli 2024 at selskapet introduserte sin avanserte stemmemodus med uttrykksfull, sanntidsrespons. Lanseringen ble ledsaget av kontrovers da en av AIs stemmer, Sky, ble funnet å være nøye med å ligne på at Scarl Latett ville røde. Til bare 232 millisekunder, noe som får samtaler til å føles sømløse. desember 2024 markerte et stort sprang fremover da Openai introduserte live videostøtte i avansert stemmemodus, slik at brukere kunne vise objekter til AI for sanntidsinteraksjon. I februar 2025 gjorde Openai avansert stemmemodus tilgjengelig for brukere av gratis nivåer, men med begrensninger-den fulle versjonen forble begrenset til å betale abonnenter. Samtidig utvidet Openai sine stemmefunksjoner utover chatgpt selv, med at AI-stemmer blir mer avanserte, konkurrerer store teknologiselskaper om å dominere plassen. Microsoft har fjernet alle begrensninger i AI-stemmeinteraksjoner i Copilot, noe som gjør sin stemmeassistent fritt tilgjengelig for brukere. I mellomtiden har Googles Gemini Live kjempet for å matche Openais naturlige talefunksjoner, med tidlig brukertilbakemelding som fremhever at det fremdeles føles robot sammenlignet med chatgpts fluid-respons. . I stedet for å fokusere på hyperrealisme, har GROK-chatbot en”unhinged”-modus, slik at den kan banne, krangle og delta i aggressiv dialog. flyttingen har vekket debatt om hvordan ai skal oppføre seg i samtaler-om det skal være nøytralt og høflig eller hvis mer uten å oppføre seg. For menneskelig
Den økende realismen til AI-genererte stemmer reiser sikkerhetsproblemer. Eksperter advarer om at når AI-stemmesyntese forbedres, kan feilinformasjon og politisk bedrag bli enda vanskeligere å bekjempe. Utover sikkerhetsrisikoer er det også bekymring for hvordan realistiske AI-stemmer kan påvirke brukerens oppfatning og atferd. Studier har vist at det er mer sannsynlig at folk stoler på stemmer som høres menneskelige ut, noe som kan føre til utilsiktede følelsesmessige forbindelser med AI. Når AI-etiske diskusjoner fortsetter, hevder noen forskere at AI-generert tale alltid bør inkludere subtile kunstige markører for å differensiere det fra menneskelige stemmer. Openai forventes å utvide ChatGPTs avanserte stemmemodus med mer tilpasningsfunksjoner, noe som gir brukerne kontroll over aspekter som intonasjon, tempo og personlighetstrekk. mens dette kan øke brukeropplevelsen, veger det også nye etiske bekymringer. Bør AI-genererte stemmer få lov til å høres fra spesifikke individer? Bør de optimaliseres for å fremkalle følelser hos brukere? Bransjen har ennå ikke funnet seg til ro med klare grenser. I mellomtiden fortsetter Microsoft sitt trykk inn i AI-stemmen med kopiloten sin, og integrerer taleinteraksjoner på tvers av økosystemet. Google, som sliter med å lukke gapet med Openai, jobber med en stor overhaling av Gemini Live for å gjøre talemønstrene sine mer naturlig. Rase for å perfeksjonere AI-genererte samtaler er langt fra over, og konkurransen mellom store teknologiske firmaer forventes å intensivere når teknologien modnes. openais avanserte stemmemodus er ledende
hvor ai tale teknologi er Stemmene blir mer overbevisende, utviklere skifter fokus for å foredle teknologien videre.