Openai ka nisur modelet e azhurnuara të të folurit në tekst dhe tekst në të folur, duke përmirësuar saktësinë e transkriptimit dhe zgjerimin e opsioneve të personalizimit për zërat e gjeneruar nga AI. Lojtarët e Google, Microsoft dhe në zhvillim si susami AI duke shtyrë kufijtë e realizmit sintetik të zërit.
Përmirësimi i të folurit në tekst: Fiksimi i gabimeve të transkriptimit dhe halucinacionet e AI
Openai i ri
Burimi: Openai Ndërsa Openai pretendon se këto azhurnime zvogëlojnë ndjeshëm halucinacionet, vlerësimet e pavarura do të jenë të nevojshme për të verifikuar përmirësimet e saktësisë së tij. Modelet e transkriptimit të AI ende luftojnë në rastet e skajeve, veçanërisht kur trajtoni fjalimin e mbivendosur, zhurmën e rëndë në sfond, ose gjuhën informale bisedore. Target=”_ bosh”> Modeli i ri GPT-4O Mini TTS tekst-në-fjalë Openai vetë është përballur me kritika të profilit të lartë mbi etikën e zërit. Në maj të vitit 2024, kompania hoqi një nga zërat e saj të gjeneruar nga AI, Sky, pasi përdoruesit vunë në dukje ngjashmërinë e saj me aktoren Scarlett Johansson. Johansson më vonë deklaroi se ajo”kurrë nuk kishte dhënë leje Openai për të përdorur zërin e saj.”Sidoqoftë, kompania ende nuk ka siguruar transparencë të plotë në masat mbrojtëse të sakta që ka zbatuar për të parandaluar përsëritjen e zërit të paautorizuar. Kompania i ka integruar këto modele me Agjent SDK , duke i mundësuar zhvilluesit të ndërtojnë sisteme AI të bazuara në zë për asistentët virtualë, chatbots të shërbimit të klientit, dhe akses të Agjentit. duke u zhvilluar në të gjithë industrinë. Raportet Financiare Raportet që Openai pret që zëri i drejtuar nga zëri AI të bëhet një ndërfaqe kryesore për të llogaritur nga llogaritja nga 2025, me një Agents Agents. Ndërkohë, Google është duke ngulitur AI në aplikacione të produktivitetit Ashtu si Gemini Canvas, dhe Microsoft IS Expandering”> Ekosistemi i kopilot. Modelet e fundit të Openai tregojnë përparime të qarta në realizëm dhe përdorueshmëri, por shqetësimet etike dhe të sigurisë rreth sintezës së zërit të drejtuar nga AI janë larg nga zgjidhja.