Openaiは、アップグレードされた音声からテキストとテキストへのモデルを開始し、転写の精度を改善し、AIに生成された声のカスタマイズオプションを拡大しました。 Google、Microsoft、およびSesame AIなどの新興プレイヤーが合成音声リアリズムの境界を押し進めます。 src=”data:image/svg+xml; nitro-empty-id=mty4otoxota4-1; base64、phn2zyb2awv3qm94psiwidagmtaynca2mt aiihdpzhropsixmdi0iibozwlnahq9ijyxmcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

スピーチツーテキストの改善:転写エラーとAI幻覚の修正

openaiのnew 精度、単語認識、および文脈的理解の主要なアップグレードを導入し、AIに生成された転写の長年の問題に対処します。分析された公開会議の成績証明書の80%のテキストは、法的、医療、およびビジネスアプリケーションにおけるAIの信頼性に関する懸念を提起しました。これらの幻覚は、低品質のオーディオ、重いアクセント、または複雑な文構造を処理するときにしばしば発生しました。

新しいモデルは、ワードエラー率の改善、アクセントと方言のより良い取り扱い、および騒音干渉に対するより高い抵抗により、これらの問題を軽減することを目的としています。自動化、およびAI搭載のアクセシビリティツール。

source:source:source:source: Openai

Openaiはこれらの更新が幻覚を大幅に減らすと主張しているが、その精度の改善を検証するために独立した評価が必要だ。 AI転写モデルは、特に重複する音声、重い背景ノイズ、または非公式の会話言語を処理する場合、エッジの場合に依然として苦労しています。 href=”https://platform.openai.com/docs/guides/text-topeech”target=”_ blank”>新しいgpt-4o mini ttsテキストからスピーチモデル ai-generatedの音声をより表現力豊か、カスタマイズ可能、および人間のようなものにするように設計されています。ペーシング、および音声配信

AIの音声業界は、GoogleやMicrosoftなどのライバルからの大規模な進歩により、ますます競争が激しくなっています。 Googleの新しいChirp 3 HD音声モデルにより、トーンのリアルタイムの適応が可能になります。

最も物議を醸す開発の1つは、AIが生成した声が人間の欠陥を模倣しているゴマAIに由来します。 AIに生成された誤った情報と詐欺に対する倫理的懸念を提起しました。 axios Reports ai生成された音声詐欺が増加しており、犯罪者を使用して犯罪者を使用して犯罪者を使用して、exective executives executives executives expentivesを使用します。わずか数秒の音声がサイバーセキュリティの専門家の間でアラームを引き起こしました。 2024年5月、同社は、ユーザーが女優のスカーレットヨハンソンに類似していることに気付いた後、AIが生成された声の1つであるSkyを削除しました。ヨハンソンは後に、「彼女の声を使うオープンアライの許可を与えたことはなかった」と述べた。

AIの声のクローニングと知的財産権についての議論に巻き込まれた。ただし、同社は、不正な音声複製を防ぐために実装した正確な保護手段にまだ完全な透明性を提供していません。同社は、これらのモデルをエージェントSDK に統合しました。業界全体で努力が進行中です。 Googleは生産性のあるAIに埋め込まれている<そのCopilot Ecosystem。

AIに生成された声が人間のスピーチと見分けがつかないようになっているため、技術の進歩と責任ある展開のバランスは依然として重要な問題です。 Openaiの最新モデルは、リアリズムと使いやすさの明確な進歩を示していますが、AI主導の音声合成を取り巻く倫理的およびセキュリティ上の懸念は解決にはほど遠いものです。