Scale AI เปิดตัว'Seal Showdown'LLM Leadboards หรือไม่-สามารถกำจัด lmarena ได้

หมุนตัวออกจากการเป็นหุ้นส่วนที่หายนะกับเมตาที่จุดประกายการอพยพของลูกค้าและการปลดพนักงานจำนวนมาก บริษัท ที่มีป้ายกำกับข้อมูล AI กำลังเล่นอย่างกล้าหาญเพื่อเรียกคืนอำนาจในอุตสาหกรรม AI

บริษัท ได้เปิดตัว ฐานผู้ใช้ทั่วโลกที่หลากหลายและป้องกันการจัดการ จุดหมุนเชิงกลยุทธ์นี้มีจุดมุ่งหมายเพื่อจัดการกับความกังวลที่เพิ่มขึ้นว่าการจัดอันดับ AI ในปัจจุบันนั้นง่ายมากและล้มเหลวในการสะท้อนประสิทธิภาพในโลกแห่งความเป็นจริงโดยเสนอเส้นทางเพื่อสร้างชื่อเสียงบนพื้นฐานของรากฐานของความน่าเชื่อถือ

จากวิกฤตการณ์ขององค์กรไปจนถึงการเสนอราคาเพื่อความน่าเชื่อถือ

การเปิดตัวเป็นการตอบสนองโดยตรงต่อหายนะไม่กี่เดือนสำหรับ บริษัท วิกฤตที่เกิดขึ้นจากการตัดสินใจเชิงกลยุทธ์ครั้งเดียว ในเดือนมิถุนายนเมตาลงทุน 14.3 พันล้านเหรียญสหรัฐสำหรับสัดส่วนการถือหุ้น 49% ในระดับ AI

การเคลื่อนไหวเป็นการกลเม็ดที่สิ้นหวังโดยเมตาดาต้าเพื่อตอบโต้ความวุ่นวายภายในของตัวเอง “ Superintelligence” ห้องปฏิบัติการ ดังที่นักวิเคราะห์คนหนึ่งระบุไว้ว่าเป็นการลงทุน“ ไม่แม้แต่จะซื้อ บริษัท ทั้งหมด แต่เพียงแค่มีหัวหน้า บริษัท มุ่งมั่นที่จะพยายาม AI ของคุณ”

ในขณะที่การทำรัฐประหารเชิงกลยุทธ์สำหรับเมตา พวกเขาได้รับความไว้วางใจจากข้อมูลที่ละเอียดอ่อนเป็นกรรมสิทธิ์และแผนงานผลิตภัณฑ์ในอนาคตจากยักษ์ใหญ่ด้านเทคโนโลยีที่แข่งขันกัน ข้อตกลงเมตาทำลายความไว้วางใจนั้นในทันที

ผลที่ตามมานั้นเกิดขึ้นทันทีและรุนแรง การอพยพของลูกค้าเริ่มเป็นยักษ์ใหญ่ในอุตสาหกรรมรวมถึง Google, Microsoft และ XAI ของ Elon Musk เริ่มทบทวนการเป็นหุ้นส่วนของพวกเขาโดยกลัวว่าข้อมูลของพวกเขาจะได้รับการสัมผัสกับคู่แข่งโดยตรง

Google ซึ่งเป็นลูกค้าที่ใหญ่ที่สุดของ Scale ในเดือนกรกฎาคมเพียงหนึ่งเดือนหลังจากข้อตกลงเมตา บริษัท ได้ปลดพนักงาน 14% ของพนักงานส่งผลกระทบต่อพนักงานเต็มเวลา 200 คนและผู้รับเหมา 500 คน การตัดได้รับการจัดการอย่างกะทันหันโดยมีรายงานว่าพนักงานปิดระบบก่อนที่พวกเขาจะตื่นขึ้นมา

การรวมวิกฤติเป็นรายงานของความล้มเหลวความปลอดภัยที่สำคัญที่เปิดเผยข้อมูลลูกค้าใน Google เอกสารสาธารณะ การปรับเปลี่ยนตลาดได้สร้างโอกาสครั้งใหญ่สำหรับคู่แข่งของ Scale โดยมี บริษัท อย่าง Surge AI รายงานว่ากำลังมองหาเมืองหลวงใหม่เพื่อดูดซับลูกค้าที่หลบหนี

ความวุ่นวายในการดำเนินคดีทางกฎหมาย ในช่วงต้นเดือนกันยายน Scale AI ได้ยื่นฟ้อง บริษัท จารกรรมของ บริษัท ต่อ บริษัท Mercor และอดีตผู้บริหาร Eugene Ling.

ชุดสูทอ้างว่า Ling ขโมยเอกสารลับกว่า 100 ฉบับที่มีความลับทางการค้าก่อนเข้าร่วมคู่แข่ง การย้ายส่งสัญญาณ บริษัท ภายใต้แรงกดดันอันยิ่งใหญ่ตอนนี้การต่อสู้เพื่อปกป้องทรัพย์สินทางปัญญาของตนในขณะที่คู่แข่งใช้ประโยชน์จากความไม่แน่นอนของมัน

เกมเดิมพันสูงของลีดเดอร์บอร์ดที่มีข้อบกพร่อง

การแข่งขัน Seal Boaced สามารถขับ Buzz สื่อสัญญาขององค์กรและการประเมินมูลค่าที่สูงขึ้นสร้างแรงกดดันอันยิ่งใหญ่สำหรับห้องปฏิบัติการที่จะทำงานได้ดีบางครั้งผ่านวิธีที่น่าสงสัย สิ่งนี้ก่อให้เกิด“ สงครามเบนช์มาร์ก” ซึ่งการรับรู้ของการปกครองนั้นสำคัญมากเท่ากับประสิทธิภาพที่แท้จริง

การมุ่งเน้นที่เข้มข้นของตัวชี้วัดนี้นำไปสู่การปฏิบัติเช่น“ Hillclimbing” รายงานล่าสุดเปิดเผยว่า Xai ของ Elon Musk จ้างผู้รับเหมาโดยมีเป้าหมายที่ชัดเจนในการฝึกอบรมแบบจำลอง Grok เพื่อเอาชนะ Claude ของคู่แข่งใน Anthropic บนกระดานผู้นำการเข้ารหัส WebDev Arena ที่มีอิทธิพล href=”https://www.businessinsider.com/grok-leaderboard-coding-anthropic-claude-scale-ai-2025-7″target=”_ blank”> นักธุรกิจภายใน .

สิ่งนี้ บางคนเช่น Anastasios Angelopoulos ซีอีโอของ Lmarena มองว่าเป็นส่วนหนึ่งของการพัฒนามาตรฐานบอกกับธุรกิจคนหนึ่งว่า“ นี่เป็นส่วนหนึ่งของเวิร์กโฟลว์มาตรฐานของการฝึกอบรมแบบจำลองคุณต้องรวบรวมข้อมูลเพื่อปรับปรุงโมเดลของคุณ”

คนอื่น ๆ Sara Hooker หัวหน้าห้องปฏิบัติการ Cohere แย้งว่า“ เมื่อลีดเดอร์บอร์ดมีความสำคัญต่อระบบนิเวศทั้งหมดแรงจูงใจจะถูกจัดตำแหน่งให้เป็น gamed”

นี่ไม่ใช่แค่ความกังวลทางทฤษฎี การโฟกัสที่เข้มข้นของเกณฑ์มาตรฐานดูเหมือนจะสร้างช่องว่างที่เป็นอันตรายระหว่างวิธีการทดสอบแบบจำลองและวิธีการทำงานของพวกเขาในโลกแห่งความเป็นจริง

นี่เป็นตัวอย่างคลาสสิกของกฎของ Goodhart ซึ่งการวัดจะเป็นประโยชน์เมื่อมันกลายเป็นเป้าหมายหลัก ในฐานะนักยุทธศาสตร์ AI nate Jones เขียน “ช่วงเวลาที่เราตั้งค่าการปกครอง ระบบตามการศึกษาเดือนกรกฎาคมร่วมเขียนโดยนักวิจัยจาก Amazon, Stanford และ MIT.

แม้กระทั่งก่อนการศึกษาครั้งนี้นักวิจารณ์ได้ถามถึงความถูกต้องทางวิทยาศาสตร์ของแพลตฟอร์มที่มีผู้คนจำนวนมาก ศาสตราจารย์แห่งมหาวิทยาลัยวอชิงตันเอมิลี่เบนเดอร์แย้งว่า“ ต้องใช้งานได้มาตรฐานจำเป็นต้องวัดบางสิ่งบางอย่างและจำเป็นต้องสร้างความถูกต้อง…” สังเกตว่า Lmarena ไม่ได้พิสูจน์ว่าการลงคะแนนของผู้ใช้นั้นสัมพันธ์กับคุณภาพของโมเดล การออกแบบ.”

การเปิดตัวซีลมีจุดมุ่งหมายเพื่อสร้างเกณฑ์มาตรฐานที่ดีกว่า

สเกล AI กำลังวางตำแหน่งการเปิดตัวซีลเป็นยาแก้พิษไปยังวิธีการเปรียบเทียบแบบจำลอง AI ในปัจจุบัน บริษัท ระบุว่ากระดานผู้นำของวันนี้เบ้เพราะพวกเขา พึ่งพาการตอบรับอย่างมากจากกลุ่มผู้ที่ชื่นชอบเทคโนโลยีที่แตกต่างกัน เครือข่าย. เครือข่ายนี้ครอบคลุมกว่า 100 ประเทศ 70 ภาษาและอาชีพต่าง ๆ สัญญาว่าจะเป็นตัวแทนและการประเมินผลการปฏิบัติงานของแบบจำลองที่เป็นจริงมากขึ้น

เป็นครั้งแรกในกระดานผู้นำสาธารณะผู้ใช้สามารถแบ่งกลุ่มตามประชากรเช่นประเทศอายุระดับการศึกษาและภาษา สิ่งนี้ช่วยให้นักพัฒนาและลูกค้าสามารถดูว่าโมเดลทำงานอย่างไรสำหรับผู้ชมที่เฉพาะเจาะจงแทนที่จะพึ่งพาคะแนนเดียวที่เสาหิน

ตัวอย่างเช่นข้อมูลเริ่มต้นของสเกลเผยให้เห็นการตั้งค่าระดับภูมิภาค นอกจากนี้ยังแสดงให้เห็นว่าแบบจำลองเช่นราศีเมถุนทำงานได้ดีขึ้นกับผู้ใช้ที่ไม่ใช่ภาษาอังกฤษโดยนำเสนอข้อมูลเชิงลึกที่ไม่สามารถใช้งานได้ก่อนหน้านี้ต่อสาธารณะ

ขนาดใหญ่ยังมีการใช้งานป้องกันการจัดการ บริษัท ระบุว่าจะไม่ขายหรืออนุญาตให้ใช้ข้อมูลล่าสุดจากการจัดจำหน่ายเช่นเดียวกับ Live Leadyboard นโยบายนี้ได้รับการออกแบบมาเพื่อป้องกันไม่ให้ AI Labs เพียงแค่ปรับโมเดลของพวกเขาให้เป็น”เกม”การจัดอันดับบังคับให้พวกเขาสร้างระบบที่มีความสามารถอย่างแท้จริง

การเคลื่อนไหวตอกย้ำหลักการที่กลายเป็นเสียงร้องสำหรับคู่แข่งของสเกล ในฐานะซีอีโอของทัวริงโจนาธานซิดฮาร์ ธ แย้งหลังจากข้อตกลงเมตา“ ความเป็นกลางไม่ได้เป็นทางเลือกอีกต่อไปมันเป็นสิ่งจำเป็น” ด้วยการเปิดตัวแพลตฟอร์มที่สร้างขึ้นจากความโปร่งใสและความเป็นกลาง Scale AI กำลังพยายามเรียกคืนคุณภาพที่จำเป็นนั้น

ในที่สุด Seal Showdown เป็นมากกว่าการเปิดตัวผลิตภัณฑ์ เป็นการประมูลที่มีเดิมพันสูงสำหรับการไถ่ถอน สำหรับ บริษัท ที่มีชื่อเสียงถูกทำลายโดยข้อตกลงที่ทำลายความเป็นอิสระการสร้างเกณฑ์มาตรฐานที่น่าเชื่อถือที่สุดของอุตสาหกรรมอาจเป็นเส้นทางเดียวที่กลับสู่ตำแหน่งผู้นำ

Scale AI เปิดตัว’Seal Showdown’LLM Leadboards หรือไม่-สามารถกำจัด lmarena ได้

Published by All Things Windows on September 22, 2025

จากวิกฤตการณ์ขององค์กรไปจนถึงการเสนอราคาเพื่อความน่าเชื่อถือ

เกมเดิมพันสูงของลีดเดอร์บอร์ดที่มีข้อบกพร่อง

การเปิดตัวซีลมีจุดมุ่งหมายเพื่อสร้างเกณฑ์มาตรฐานที่ดีกว่า

IT Info

Google DeepMind อัปเดตกฎความปลอดภัยของ AI เพื่อตอบโต้’การจัดการที่เป็นอันตราย’และแบบจำลองที่ต่อต้านการปิดระบบ

IT Info

วิธีกู้คืน WordPad ใน Windows 11 (2 วิธี)

IT Info

Windows 11 กำลังได้รับคุณสมบัติวอลล์เปเปอร์วิดีโอ

Scale AI เปิดตัว’Seal Showdown’LLM Leadboards หรือไม่-สามารถกำจัด lmarena ได้

Published by All Things Windows on September 22, 2025

จากวิกฤตการณ์ขององค์กรไปจนถึงการเสนอราคาเพื่อความน่าเชื่อถือ

เกมเดิมพันสูงของลีดเดอร์บอร์ดที่มีข้อบกพร่อง

การเปิดตัวซีลมีจุดมุ่งหมายเพื่อสร้างเกณฑ์มาตรฐานที่ดีกว่า

Related Posts

IT Info

Google DeepMind อัปเดตกฎความปลอดภัยของ AI เพื่อตอบโต้’การจัดการที่เป็นอันตราย’และแบบจำลองที่ต่อต้านการปิดระบบ

IT Info

วิธีกู้คืน WordPad ใน Windows 11 (2 วิธี)

IT Info

Windows 11 กำลังได้รับคุณสมบัติวอลล์เปเปอร์วิดีโอ