クライアントの出エジプト記と大量のレイオフを引き起こしたメタとの悲惨なパートナーシップからの巻き上げ、データラベルの会社スケールAIは、AI業界でその権限を取り戻すために大胆な遊びをしています。 a 多様なグローバルユーザーベースと操作に対するセーフガードを使用して、「ベンチマーク戦争」。この戦略的ピボットは、現在のAIランキングが簡単にゲームされており、実世界のパフォーマンスを反映していないという懸念の高まりに対処することを目的としています。 src=”data:image/svg+xml; nitro-empty-id=mty0mdoxmdy3-1; base64、phn2zyb2awv3qm94psiwidagmti4mcaxmdk4 iib3awr0ad0imti4mcigagvpz2h0psixmdk4iib4bwxucz0iahr0cdovl3d3d3d3d3d3d3d3dy5vvcmcvmjawmc9zdmcipjwvc3znpg==”>

シールショーダウンがより良いベンチマークを構築することを目的としている方法

スケールAIは、この欠陥システムの解毒剤としてシール対決を位置付けています。同社は、今日のリーダーボードは狭いグループのハイテク愛好家からのフィードバックに大きく依存していると主張しています。貢献者ネットワーク。このネットワークは、100か国以上、70の言語、およびさまざまな職業にまたがっており、モデルパフォーマンスのより代表的で現実的な評価を約束します。

公開リーダーボードで初めて、ユーザーは国、年齢、教育レベル、言語などの人口統計によってランキングをセグメント化できます。これにより、開発者と顧客は、単一のモノリシックスコアに依存するのではなく、特定の聴衆のモデルのパフォーマンスを確認できます。

たとえば、スケールの初期データは地域の好みを明らかにします。また、Geminiのようなモデルが英語以外のユーザーでどのように優れたパフォーマンスを発揮し、以前は一般に利用できなかった洞察を提供するかを示しています。同社は、ライブリーダーボードと同じ分布から最近のデータを販売またはライセンスしないと述べています。このポリシーは、AIラボがモデルを単純に調整してランキングを「ゲーム」し、真に有能なシステムを構築することを強制するように設計されています。チューリングのCEOであるジョナサン・シッダールスは、メタの取引の後に「中立性はもはやオプションではなく、不可欠です」と主張したように。透明性と中立性に基づいて構築されたプラットフォームを発売することにより、AIはその本質的な品質を取り戻そうとしています。

最終的に、シールショーダウンは製品の発売以上のものです。それは償還のためのハイステークス入札です。独立を妥協した取引によって評判が崩れた企業にとって、業界で最も信頼できるベンチマークを構築することは、リーダーシップの地位に戻る唯一の道かもしれません。 6月、メタはスケールAIの49%の株式に143億ドルを投資しました。

動きは、メタによる絶望的なギャンビットでした。深刻な才能の​​排水や失速AIモデルの開発を含む独自の内部混乱に対抗するための必死のギャンビットでした。ラボ。あるアナリストが指摘したように、それは「会社全体を購入することさえすることではなく、会社の責任者をAIの努力に導くためだけに」投資でした。

メタの戦略的なクーデターである間、パートナーシップはデータを想像するためのスケールのビジネスモデルの基礎:中立性を打ち砕きました。彼らは、競合するハイテク大手からの繊細で独自のデータと将来の製品ロードマップを委ねられています。メタ取引は、その信頼を一瞬で破壊しました。

結果は即時かつ深刻でした。 Google、Microsoft、Elon MuskのXaiを含む業界の巨人がパートナーシップのレビューを開始し、データが直接的な競合他社にさらされる可能性があることを恐れて、クライアントの出エジプト記が始まりました。メタ契約からわずか1か月後の7月に、同社は労働力の14%を解雇し、200人のフルタイム従業員と500人の請負業者に影響を与えました。カットは突然処理され、スタッフは目が覚める前にシステムを締め出したと伝えられています。

危機を悪化させたのは、公共のGoogleドキュメントでクライアントデータを公開する重大なセキュリティ障害の報告であり、安全なデータ処理の評判をさらに損なうことです。市場の再編成は、スケールのライバルに大きな機会を与え、サージAIのような企業は、逃げるクライアントを吸収するために新しい資本を求めていると伝えられています。 9月上旬、スケールAIは、ライバル会社のメルコールと元幹部のユージン・リンに対して企業のスパイ訴訟を起こしました。この動きは、競合他社がその不安定性を活用するにつれて知的財産を保護するために現在戦っている巨大な圧力を受けている企業を示しています。メディアの話題、エンタープライズ契約、およびより高い評価を促進することができ、疑わしい手段を介して、ラボがうまく機能するように大きな圧力をかけます。これにより、優位性の認識が実際のパフォーマンスと同じくらい重要である「ベンチマーク戦争」が生まれました。最近の報告によると、Elon MuskのXaiは、影響力のあるWebdev Arena Coding Leaderboardでライバルの人類のクロードを破るようにGrokモデルをトレーニングするという明確な目標を持って請負業者を雇ったことが明らかになりました。 href=”https://www.businessinsider.com/grok-leaderboard-coding-anthropic-claude-scale-ai-2025-7″ターゲット=”_ blank”> Business Insider 。 LmarenaのCEO Anastasios Angelopoulosのように、それを開発の標準的な部分と見なし、ビジネスインサイダーに「これはモデルトレーニングの標準ワークフローの一部です。モデルを改善するためにデータを収集する必要があります。」 Cohere Labsの責任者であるSara Hookerは、「リーダーボードが生態系全体にとって重要である場合、インセンティブがゲームを整えるために揃っている」と主張しました。ベンチマークへの集中的な焦点は、モデルがテストでどのように機能するかと現実の世界での機能の機能との間に危険なギャップを生み出しているようです。

これは、主要なターゲットになると測定が役に立つように停止するグッドハートの法則の古典的な例です。 AIストラテジストとして nateジョーンズは書いた、「リーダーボードの支配を設定した瞬間、ゴールとしてモデルを作成すると、モデルを作成します。体系的な、Amazon、Stanford、およびMITの研究者が共著した7月の調査によると、

paper タスクのセットアップと報酬設計の問題により、100%まで。著者らは、これらの欠陥が競争力のあるリーダーボードでエージェントを最大40%誤って誤って支配できることを発見しました。ワシントン大学のエミリー・ベンダー教授教授は、「有効であるためには、ベンチマークは特定の何かを測定する必要があり、構成の妥当性を測定する必要がある」と主張した。Lmarenaは、TechCrunchによると、ユーザーの投票が実際にモデルの品質と相関していることを証明していないと主張した。デザイン。”

Categories: IT Info