從與Meta的災難性合作夥伴關係中脫穎而出,這引發了客戶的外流和大規模裁員,數據標記的公司規模AI在AI行業中恢復了其權威。
該公司今天推出了“ Seal Showdown”,“ Seal Showdown”,一個新的公共排行榜,旨在挑選了新的Emplortial Alliv soply liv liv liv liv liv liv liv liv lim lmare
。通過使用多樣化的全球用戶群和防止操縱的保障措施。這個戰略性樞紐旨在解決日益嚴重的擔憂,即當前的AI排名很容易被認出並且無法反映現實世界的性能,為規模提供了在信任基礎上重建其聲譽的道路。
從公司危機到競標信譽
啟動是對公司幾個月的災難性響應的直接回應,該公司的危機被單個戰略決策引起了危機。 In June, Meta invested $14.3 billion for a 49% stake in Scale AI.
The move was a desperate gambit by Meta to counter its own internal turmoil, including a severe talent drain and stalled AI model development.
The deal was widely seen as a massive “acqui-hire”designed to install Scale’s founder, Alexandr Wang, as the head of Meta’s new “超級智能”實驗室。正如一位分析師指出的那樣,這是一項投資“甚至不購買整個公司,而是要讓公司負責人的AI努力。”
雖然對元的戰略政變,但合作夥伴關係破壞了規模業務模型的基礎:中立性。他們委託競爭技術巨頭的敏感,專有數據和未來的產品路線圖。元協議瞬間摧毀了這種信任。
後果是立即和嚴重的。 A client exodus began as industry giants, including Google, Microsoft, and Elon Musk’s xAI, started reviewing their partnerships, fearing their data could be exposed to a direct competitor.
Google, reportedly Scale’s largest customer, began planning to sever a contract worth up to $200 million.
This industry-wide loss of confidence blew a massive hole in Scale’s revenue, forcing it to take drastic measures.七月,即元交易僅一個月後,該公司放棄了14%的勞動力,影響了200名全職員工和500名承包商。削減突然處理,據報導員工在醒來之前將其關閉。
加劇了危機的報導,有報導稱,嚴重的安全失敗,該數據暴露了公共Google文檔上的客戶數據,進一步損害了其在安全數據處理方面的聲譽。市場調整為規模的競爭對手創造了巨大的機會,據報導,AI諸如Surver AI之類的公司正在尋求新的資本來吸收逃離客戶。
動盪以法律訴訟為中心。 9月初,Scale AI針對競爭對手Mercor和前高管Eugene Ling。此舉標誌著一家公司在巨大壓力下的努力,目前努力保護其知識產權。驅動媒體嗡嗡聲,企業合同和更高的估值,給實驗室帶來巨大壓力,有時是通過可疑手段來表現良好的。這引起了“基準戰爭”,在這種戰爭中,對主導地位的看法與實際績效一樣至關重要。
這種對指標的強烈關注導致了“山丘”之類的實踐。最近的一份報告顯示,埃隆·馬斯克(Elon Musk)的XAI僱用承包商的明確目標是訓練其Grok模型,以擊敗競爭對手的人類人物在有影響力的WebDev競技場編碼排行榜上擊敗競爭對手的Claude。
內部的登機文檔坦率地說: href=“ https://www.businessinsider.com/grok-leaderboard-coding-anthropic-claude-scale-scale-scale-ai-2025-7″ target=“ _ black”> baskess Insider 。
這種“對測試的教學”方法使AI群落分為AI社區。有些人,例如LMARENA的首席執行官Anastasios Angelopoulos,將其視為開發的標準部分,告訴Business Insider:“這是模型培訓的標準工作流程的一部分。您需要收集數據以改善模型。”
其他人更加持懷疑態度,警告它會導致散落的疑惑。 Cohere Labs負責人薩拉·胡克(Sara Hooker)認為:“當排行榜對整個生態系統很重要時,激勵措施就會使其保持一致。”
這不僅僅是理論上的關注。對基準的強烈關注似乎是在模型如何在測試上的表現與它們在現實世界中的運作之間造成危險的差距。
這是古哈特定律的經典示例,一旦成為主要目標,措施就會有用。 As AI strategist Nate Jones wrote, “the moment we set leaderboard dominance as the goal, we risk creating models that excel in trivial exercises and flounder when facing reality.”
The problem is根據7月的一項研究,由亞馬遜,斯坦福大學和麻省理工學院的研究人員共同進行。
paper 逐漸熟練的效果:由於任務設置和獎勵設計中的問題,要達到100%。作者發現,這些缺陷可能會在競爭性排行榜上誤列代理。
甚至在這項研究之前,批評者都質疑了眾包平台的科學有效性。華盛頓大學艾米麗·本德(Emily Bender)教授辯稱:“要保持有效,需要衡量特定的東西,並且需要具有構建有效性……”,並指出,lmarena並未證明用戶的投票實際上與模型質量相關。設計。 ”
密封攤牌旨在建立一個更好的基準
刻度AI將密封攤牌定位為對AI模型基準測試目前有缺陷方法的解毒劑。該公司認為,今天的排行榜偏斜,因為它們在很大程度上依賴一組狹窄的科技愛好者的反饋,這是對整個平台的多樣性confortiation for new Platform ofertion的範圍。 網絡。該網絡跨越了100多個國家,70種語言和各種專業,承諾對模型績效進行更具代表性和現實的評估。
首次在公共排行榜上,用戶可以按人口統計學劃分國家,年齡,教育水平和語言等人口統計學。這使開發人員和客戶可以看到模型如何為特定受眾的性能,而不是依靠單個單一的分數。
例如,Scale的初始數據揭示了區域偏好,而Chatgpt在歐洲領先,而Claude則在其他地方更有競爭力。它還顯示了像Gemini這樣的模型如何與非英語用戶的表現更好,提供了以前不可公開的見解。
至關重要的是,規模也正在實施防止操縱的保障措施。該公司指出,它不會出售或許可與現場排行榜相同分佈的最新數據。該策略旨在防止AI實驗室簡單地調整其模型以“遊戲”排名,迫使他們建立真正有能力的系統。
此舉強調了一種原則,這已經成為Scale競爭對手的集會哭泣。圖靈首席執行官喬納森·悉達斯(Jonathan Siddharth)在元交易之後辯稱:“中立不再是可選的,這是必不可少的。 “通過啟動以透明性和中立性為基礎的平台,Scale AI試圖收回基本質量。
最終,密封攤牌不僅僅是產品推出。這是贖回的高風險。對於一家損害其獨立性的交易打破聲譽的公司,建立該行業最值得信賴的基準可能是返回領導職務的唯一途徑。