OpenAI の GPT-4o には中国のポルノとスパムの問題がある

OpenAI の最新マルチモーダルモデル GPT-4o は、中国のトークンデータの問題により厳しい監視に直面しています。 GPT-4o のパブリックトークンライブラリを詳しく調べた研究者によると、この問題は不適切なデータクリーニングプロセスに起因し、潜在的なパフォーマンス上の問題や悪用につながっているとのことです。

トークンは言語モデルの基本単位であり、単語、式、または文字を表す。これらにより、モデルは一貫した文字列を認識することでテキストをより効率的に処理できるようになります。 GPT-4o の新しいトークナイザーには 200,000 個のトークンが含まれており、その 25% は英語以外の言語であり、多言語タスクの改善を目的としています。ただし、中国語のトークンは主にスパムやポルノ的なフレーズであり、日常言語ではあまり使用されません。この不一致は、トレーニング段階でのデータフィルタリングが不十分であることが原因です。

モデルのパフォーマンスへの影響

これらの不適切なトークンの存在により、モデルが生成される可能性があります。意味のない、または無関係な応答。研究者らは、これらのトークンを悪用して OpenAI の安全メカニズムをバイパスし、モデルが安全でないコンテンツを生成できることを示しました。プリンストン大学の博士課程学生である Tianle Cai は、GPT-4o のパブリックトークンライブラリにある最長の中国語トークンを分析し、最も多くのトークンを見つけて、この問題を特定しました。ギャンブルとポルノに関連していた。

gpt4o トークナイザーのトレーニングに使用されたコーパスがインターネット詐欺によってどのように汚染されているかをさらに調査するためのスクリプトを作成しました。結果は非常に興味深いものです… 🤦‍♂️🤦‍♂️🤦‍♂️https://t.co/Fc2T4rSHix https://t.co/Q1Syh9amJn pic.twitter.com/lQ1u5aQoAs

— Tianle Cai (@tianle_cai) 2024 年 5 月 13 日

データのクリーニングと解決策

専門家は、この問題は、知名度を高めるために無関係なコンテンツをハイジャックするスパム Web サイトによってトレーニングデータが汚染されていることが原因であると示唆しています。。この問題は、GPT-3.5 および GPT-4 で使用されていたトークナイザーの以前のバージョンには存在しませんでした。この問題の解決策には、厳密なデータクリーニングプロセスを適用し、トークナイザーと言語モデルが一貫したデータセットで確実にトレーニングされるようにすることが含まれます。検出されたキーワードの自動翻訳などの単純な技術により、スパムの蔓延を大幅に減らすことができます。

この問題は、特に英語以外の言語の言語モデルの開発における徹底的なデータクリーニングの重要性を浮き彫りにしています。 OpenAI がモデルの改良を続けるにつれて、パフォーマンスを向上させ、ユーザーの信頼を維持するには、これらのデータ品質の問題に対処することが不可欠になります。

OpenAI の GPT-4o には中国のポルノとスパムの問題がある

Published by All Things Windows on May 18, 2024

モデルのパフォーマンスへの影響

データのクリーニングと解決策

IT Info

Windows 11 ビルド 22635.4145 および 27695 が新機能を備えてベータチャネルとカナリアチャネルにドロップされる

IT Info

Windows にサインインするためにピクチャパスワードを追加する方法

IT Info

VMware で TPM とセキュアブートを有効にして Windows 11 をインストールする方法

OpenAI の GPT-4o には中国のポルノとスパムの問題がある

Published by All Things Windows on May 18, 2024

モデルのパフォーマンスへの影響

データのクリーニングと解決策

Related Posts

IT Info

Windows 11 ビルド 22635.4145 および 27695 が新機能を備えてベータ チャネルとカナリア チャネルにドロップされる

IT Info

Windows にサインインするためにピクチャ パスワードを追加する方法

IT Info

VMware で TPM とセキュア ブートを有効にして Windows 11 をインストールする方法

Windows 11 ビルド 22635.4145 および 27695 が新機能を備えてベータチャネルとカナリアチャネルにドロップされる

Windows にサインインするためにピクチャパスワードを追加する方法

VMware で TPM とセキュアブートを有効にして Windows 11 をインストールする方法