มานุษยวิทยากำลังทำให้การแข่งขันหน้าต่างบริบทของ AI ทวีความรุนแรงขึ้นโดยอัพเกรดรุ่น Claude Sonnet 4 เพื่อจัดการโทเค็น 1 ล้านโท ตอนนี้มีอยู่ในเบต้าสาธารณะ การเคลื่อนไหวทำให้มานุษยวิทยาการแข่งขันโดยตรงกับ Openai ของ GPT-5 API วิเคราะห์รหัสฐานทั้งหมดหรือชุดเอกสารขนาดใหญ่ในครั้งเดียว การผลักดันทั่วทั้งอุตสาหกรรมนี้เกิดขึ้นเช่นเดียวกับการศึกษาเมื่อเร็ว ๆ นี้เกี่ยวกับ“ บริบทการเน่า” แนะนำประสิทธิภาพของโมเดลอาจแย่ลงด้วยการป้อนข้อมูลที่ยาวนานการตั้งคำถามเกี่ยวกับกลยุทธ์

มานุษยวิทยาเข้าร่วมสโมสรนับล้าน-เทือกเขา

href=”https://www.anthropic.com/news/1m-context”target=”_ blank”> api มานุษยวิทยาอย่างเป็นทางการ และอเมซอน บริษัท ยังยืนยันว่าคุณลักษณะดังกล่าวกำลังจะมาถึง Vertex AI ของ Google Cloud ในไม่ช้าซึ่งจะขยายความพร้อมใช้งานสำหรับนักพัฒนาองค์กร มานุษยวิทยากำลังวางตำแหน่งการปรับปรุงนี้สำหรับแอพพลิเคชั่นที่ซับซ้อนและมีความซับซ้อนซึ่งก่อนหน้านี้ไม่สามารถทำได้

ผู้ใช้งานยุคแรกได้ยกย่องความสามารถใหม่สำหรับผลกระทบต่อโครงการโลกแห่งความเป็นจริง Bolt.New ซึ่งเป็น บริษัท ที่รวม Claude เข้ากับแพลตฟอร์มการพัฒนาเบราว์เซอร์ได้เน้นย้ำถึงประสิทธิภาพที่ดีกว่าของคู่แข่งอย่างต่อเนื่อง Eric Simons ซีอีโอและผู้ร่วมก่อตั้งของ บริษัท กล่าวว่า“ ด้วยหน้าต่างบริบท 1M ผู้พัฒนาสามารถทำงานในโครงการที่มีขนาดใหญ่ขึ้นอย่างมีนัยสำคัญในขณะที่รักษาความแม่นยำสูงที่เราต้องการสำหรับการเข้ารหัสในโลกแห่งความเป็นจริง”

ในทำนองเดียวกัน Sean Ward, CEO และผู้ร่วมก่อตั้งของ Igent AI ได้อธิบายถึงการอัปเดตว่าเป็นการเปลี่ยนแปลงขั้นพื้นฐานโดยสังเกตว่ามันช่วยให้”วิศวกรรมการผลิตที่แท้จริง-เซสชันวัน-วันสำหรับรหัสฐานความเป็นจริง ภูมิทัศน์การแข่งขันนั้นรวมถึง Minimax ที่ใช้สิงคโปร์ซึ่งเปิดตัวโมเดลโทเค็น 4 ล้านในเดือนมกราคมซึ่งตั้งค่าบาร์สูงสำหรับอุตสาหกรรม นอกจากนี้ยังรวมถึง Meta ซึ่ง Llama 4 Scout Model มีความจุโทเค็น 10 ล้านครั้งผลักดันขอบเขตของการประมวลผลบริบทนานยิ่งขึ้นไปอีก

ภายใต้ประทุน: Claude Sonnet 4 เทียบกับ GPT-5 API

target=”_ blank”> การกำหนดราคาสำหรับฟีเจอร์ใหม่จะถูกจัดระดับ สำหรับการแจ้งเตือนสูงถึง 200,000 โทเค็นค่าใช้จ่ายคือ $ 3 ต่อล้านโทเค็นอินพุต สำหรับพรอมต์ที่ใหญ่ขึ้นราคาจะเพิ่มเป็นสองเท่าเป็น $ 6 ต่อล้านโทเค็นอินพุต โครงสร้างนี้ได้รับการออกแบบมาเพื่อจัดการภาระการคำนวณที่เพิ่มขึ้นของบริบทที่ยาวขึ้น

สิ่งนี้ตรงกันข้ามกับวิธีการของ OpenAI สำหรับ GPT-5 ที่เพิ่งเปิดตัวเมื่อเร็ว ๆ นี้ ในขณะที่อินเตอร์เฟสเว็บมีขีด จำกัด ที่น้อยกว่า GPT-5 API มีหน้าต่างบริบทสูงสุด 400,000 โทเค็น ชั้นบนสุดนี้สงวนไว้สำหรับผู้ใช้ API โดยเฉพาะการกำหนดเป้าหมายนักพัฒนาที่สร้างแอปพลิเคชันที่ต้องการการวิเคราะห์เอกสารลึก Gemini 2.5 Pro ของ Google รองรับหน้าต่างบริบทสูงสุด 1 ล้านโทเค็น 

ปัญหา’บริบทเน่า’: ใหญ่กว่าเสมอหรือไม่

ในขณะที่อุตสาหกรรมการแข่งขันไปสู่หน้าต่างบริบทที่ใหญ่กว่าเดิม รายงานล่าสุดจาก Chroma Research แนะนำแนวคิดของ“ บริบทการเน่า” การท้าทายการเล่าเรื่อง“ ใหญ่กว่านั้นดีกว่า”

การศึกษาดำเนินไปนอกเหนือจากการทดสอบ“ เข็มในการทดสอบแบบหญ้าแห้ง” ซึ่งวัดการดึงข้อมูลเท่านั้น แต่จะทดสอบ LLM ชั้นนำ 18 เรื่องเกี่ยวกับความสามารถในการอนุมานจากข้อมูลที่เกี่ยวข้องกับความหมายซึ่งเป็นงานที่ยากขึ้น นักวิจัยกล่าวว่า“ เราแสดงให้เห็นว่าแม้ภายใต้เงื่อนไขที่น้อยที่สุดประสิทธิภาพของแบบจำลองจะลดลงเมื่อความยาวอินพุตเพิ่มขึ้นบ่อยครั้งในรูปแบบที่น่าประหลาดใจและไม่สม่ำเสมอ”

ตัวอย่างเช่นแบบจำลองถูกขอให้อนุมานตำแหน่งของตัวละครจากเบาะแสทางอ้อม การศึกษายังพบว่าโมเดล GPT มีแนวโน้มที่จะเห็นภาพหลอนคำตอบที่ผิดในขณะที่โมเดล Claude มักจะปฏิเสธที่จะตอบเมื่อต้องเผชิญกับความคลุมเครือ

น่าประหลาดใจการศึกษาของ Chroma พบว่าแบบจำลองทำได้ดีขึ้นเมื่อข้อความถูกสุ่ม การค้นพบเหล่านี้ไม่ได้แยกออก การศึกษาร่วมกันจาก Microsoft และ Salesforce รายงานว่าประสิทธิภาพการทำงานที่ลดลง 39% ในระยะยาวและหลายครั้ง Llama 4 ของ Meta แม้จะมีหน้าต่างโทเค็น 10 ล้านตัว แต่ก็มีรายงานว่าได้ดิ้นรนกับเกณฑ์มาตรฐานบริบทยาว สิ่งนี้นำไปสู่บางคนเช่น Gary Marcus นักวิจัย AI เพื่อตั้งคำถามเกี่ยวกับวิธีการทั้งหมด เขาแย้งว่า“ ไม่มีใครที่มีความซื่อสัตย์ทางปัญญายังสามารถเชื่อได้ว่าการปรับขนาดที่บริสุทธิ์จะพาเราไปที่ AGI”

หลักฐานนี้ชี้ให้เห็นว่า“ วิศวกรรมบริบท”-การดูแลอย่างรอบคอบของข้อมูลที่มีคุณภาพสูง-อาจมีความสำคัญยิ่งสำหรับ AI ที่เชื่อถือได้ ในขณะที่นักพัฒนาสามารถเข้าถึงเครื่องมือใหม่ที่ทรงพลังเหล่านี้โฟกัสอาจเปลี่ยนจากจำนวนข้อมูลที่โมเดลสามารถจัดการได้ว่าข้อมูลนั้นดีเพียงใด

Categories: IT Info