OpenAI の最新マルチモーダル モデル GPT-4o は、中国のトークン データの問題により厳しい監視に直面しています。 GPT-4o のパブリック トークン ライブラリを詳しく調べた研究者によると、この問題は不適切なデータ クリーニング プロセスに起因し、潜在的なパフォーマンス上の問題や悪用につながっているとのことです。
トークンは言語モデルの基本単位であり、単語、式、または文字を表す。これらにより、モデルは一貫した文字列を認識することでテキストをより効率的に処理できるようになります。 GPT-4o の新しいトークナイザーには 200,000 個のトークンが含まれており、その 25% は英語以外の言語であり、多言語タスクの改善を目的としています。ただし、中国語のトークンは主にスパムやポルノ的なフレーズであり、日常言語ではあまり使用されません。この不一致は、トレーニング段階でのデータ フィルタリングが不十分であることが原因です。
モデルのパフォーマンスへの影響
これらの不適切なトークンの存在により、モデルが生成される可能性があります。意味のない、または無関係な応答。研究者らは、これらのトークンを悪用して OpenAI の安全メカニズムをバイパスし、モデルが安全でないコンテンツを生成できることを示しました。プリンストン大学の博士課程学生である Tianle Cai は、GPT-4o のパブリック トークン ライブラリにある最長の中国語トークンを分析し、最も多くのトークンを見つけて、この問題を特定しました。ギャンブルとポルノに関連していた。
gpt4o トークナイザーのトレーニングに使用されたコーパスがインターネット詐欺によってどのように汚染されているかをさらに調査するためのスクリプトを作成しました。結果は非常に興味深いものです… 🤦♂️🤦♂️🤦♂️https://t.co/Fc2T4rSHix https://t.co/Q1Syh9amJn pic.twitter.com/lQ1u5aQoAs
— Tianle Cai (@tianle_cai) 2024 年 5 月 13 日
データのクリーニングと解決策
専門家は、この問題は、知名度を高めるために無関係なコンテンツをハイジャックするスパム Web サイトによってトレーニング データが汚染されていることが原因であると示唆しています。 。この問題は、GPT-3.5 および GPT-4 で使用されていたトークナイザーの以前のバージョンには存在しませんでした。この問題の解決策には、厳密なデータ クリーニング プロセスを適用し、トークナイザーと言語モデルが一貫したデータ セットで確実にトレーニングされるようにすることが含まれます。検出されたキーワードの自動翻訳などの単純な技術により、スパムの蔓延を大幅に減らすことができます。
この問題は、特に英語以外の言語の言語モデルの開発における徹底的なデータ クリーニングの重要性を浮き彫りにしています。 OpenAI がモデルの改良を続けるにつれて、パフォーマンスを向上させ、ユーザーの信頼を維持するには、これらのデータ品質の問題に対処することが不可欠になります。