Microsoft Research ได้เปิดตัว Fara-7B ซึ่งเป็นโมเดล AI ขนาดกะทัดรัดมูลค่า 7 พันล้านพารามิเตอร์ที่ออกแบบมาเพื่อเรียกใช้ตัวแทน”การใช้คอมพิวเตอร์”โดยตรงบนอุปกรณ์ภายในเครื่อง
ด้วยการประมวลผลพิกเซลหน้าจอทั้งหมดบนอุปกรณ์ โมเดลใหม่นี้มีจุดมุ่งหมายเพื่อสร้าง”อำนาจอธิปไตยของพิกเซล”ช่วยให้องค์กรต่างๆ จัดทำขั้นตอนการทำงานที่ละเอียดอ่อนได้โดยอัตโนมัติโดยไม่ต้องเปิดเผยข้อมูลไปยังระบบคลาวด์
ซึ่งเปิดตัวในวันนี้ภายใต้ใบอนุญาต MIT มีรายงานว่า Fara-7B มีประสิทธิภาพเหนือกว่า คู่แข่งขนาดใหญ่บนระบบคลาวด์อย่าง GPT-4o ของ OpenAI บนเกณฑ์มาตรฐานการนำทางหลัก ในขณะที่ลดต้นทุนการอนุมานลงกว่า 90%
Pixel Sovereignty: การเปลี่ยนแปลงไปสู่ Local Agent
การเปิดตัว Fara-7B ของ Microsoft Research หลุดจากแนวโน้มอุตสาหกรรมของการประมวลผลแบบรวมศูนย์ ถือเป็นจุดเปลี่ยนเชิงกลยุทธ์จาก AI ที่ทำงานบนคลาวด์ ไปสู่สิ่งที่พวกเขาเรียกว่า”อำนาจอธิปไตยของพิกเซล”เพื่อให้มั่นใจว่าข้อมูลที่ละเอียดอ่อนจะไม่หลุดออกจากอุปกรณ์ของผู้ใช้
ภายใต้ประทุนนั้น สถาปัตยกรรมอาศัย Qwen2.5-VL-7B ของ Alibaba โมเดลพื้นฐาน ประมวลผลข้อมูลภาพโดยตรงจากภาพหน้าจอ แทนที่จะอาศัยแผนผังการเข้าถึงหรือโครงสร้างโค้ดที่สำคัญ
การนำกลยุทธ์”เน้นการมองเห็นเป็นอันดับแรก”มาใช้ ตัวแทนจะโต้ตอบกับอินเทอร์เฟซแอปพลิเคชันใดๆ เช่นเดียวกับที่มนุษย์ทำ โดยข้ามความจำเป็นในการผสานรวม API แบบกำหนดเอง
การดำเนินการในท้องถิ่นช่วยแก้ไขข้อกังวลที่สำคัญขององค์กรเกี่ยวกับความเป็นส่วนตัวของข้อมูล โดยเฉพาะอย่างยิ่งสำหรับอุตสาหกรรมที่ได้รับการควบคุมซึ่งจัดการข้อมูลทางการเงินหรือการดูแลสุขภาพ ด้วยการอนุมานทั้งหมดไว้ในเครื่องภายใน องค์กรต่างๆ จึงสามารถปรับใช้เอเจนต์อัตโนมัติได้โดยไม่ต้องเปิดเผยเวิร์กโฟลว์ที่เป็นกรรมสิทธิ์หรือข้อมูลลูกค้าไปยังเซิร์ฟเวอร์ของบุคคลที่สาม Microsoft กล่าวว่า
“ตอนนี้ขนาดที่เล็กของ Fara-7B ทำให้สามารถเรียกใช้โมเดล CUA บนอุปกรณ์ได้โดยตรง ซึ่งส่งผลให้เวลาแฝงลดลงและความเป็นส่วนตัวที่ดีขึ้น เนื่องจากข้อมูลผู้ใช้ยังคงอยู่ในเครื่อง”
เมื่อนำเวลาแฝงของคำขอระบบคลาวด์ไปกลับออก ตัวแทนในอุปกรณ์จะตอบสนองต่อการเปลี่ยนแปลง UI ได้เร็วขึ้น และสร้างประสบการณ์ผู้ใช้ที่ราบรื่นยิ่งขึ้น ความคล่องตัวดังกล่าวพิสูจน์แล้วว่ามีความสำคัญอย่างยิ่งต่อขั้นตอนการทำงานที่ซับซ้อนหลายขั้นตอน ซึ่งความล่าช้าอาจส่งผลให้สูญเสียประสิทธิภาพการผลิตอย่างมีนัยสำคัญ ตามคำกล่าวของ Microsoft:
“เอเจนต์แบบพิกเซลเท่านั้นสามารถทำงานได้บนแอปพลิเคชันจำนวนมากโดยไม่ต้องมีการจัดตำแหน่งหรือบูรณาการ ซึ่งเป็นข้อได้เปรียบที่ยิ่งใหญ่ แต่หาก UI เปลี่ยนแปลง เอเจนต์อาจประสบปัญหา เอเจนต์ทรงพลัง แต่ก็เปราะบางเช่นกัน”
สถาปัตยกรรมพารามิเตอร์ขนาดกะทัดรัด 7 พันล้านพารามิเตอร์ขนาดกะทัดรัด 7 พันล้านนี้ได้รับการปรับให้เหมาะสมสำหรับฮาร์ดแวร์ของผู้บริโภค โดยกำหนดเป้าหมายไปที่ความสามารถ NPU ของพีซี Copilot+ ความสามารถเหล่านี้สามารถเข้าถึงได้โดยไม่ต้องใช้โครงสร้างพื้นฐานที่มีราคาแพง ทำให้มั่นใจได้ว่าฟีเจอร์เอเจนต์ขั้นสูงจะยังคงสามารถเข้าถึงได้สำหรับการปรับใช้ระดับองค์กรมาตรฐาน
ประสิทธิภาพและเกณฑ์มาตรฐาน: ต้นทุนของความเป็นอิสระ
ในการท้าทายโดยตรงต่อบริษัทยักษ์ใหญ่ที่เป็นกรรมสิทธิ์ Fara-7B บรรลุอัตราความสำเร็จ 73.5% บนเกณฑ์มาตรฐาน WebVoyager ซึ่งเหนือกว่าคะแนน 65.1% ของ GPT-4o (SoM) ของ OpenAI ผลลัพธ์ดังกล่าวชี้ให้เห็นว่าโมเดลเฉพาะทางที่มีขนาดเล็กกว่าสามารถทำงานได้ดีกว่าโมเดลที่ใช้งานทั่วไปขนาดใหญ่กว่าในงานเฉพาะด้าน
ตามเอกสารทางเทคนิค Fara-7B ทำหน้าที่เป็นโมเดลถอดรหัสหลายรูปแบบเท่านั้นที่สร้างขึ้นจากสถาปัตยกรรม Qwen2.5-VL-7B ของ Alibaba ระบบจะประมวลผลเป้าหมายของผู้ใช้ ภาพหน้าจอของเบราว์เซอร์ และประวัติการดำเนินการภายในหน้าต่างบริบท 128,000 โทเค็น
ตัวแทน AI ในพื้นที่เพิ่งถึงจุดเปลี่ยนครั้งใหญ่ 🚨
Microsoft ทิ้ง Fara-7B และเอาชนะ GPT-4o ในการนำทางเว็บในขณะที่ทำงานในเครื่องทั้งหมด
เทคโนโลยีนี้ชาญฉลาด: แทนที่จะขูดโค้ด (DOM) เหมือนสคริปต์แบบเก่า กลับใช้การจดจำภาพเพื่อ”ดู”หน้าจอของคุณ… pic.twitter.com/UEzYkTTcop
— Yi (@imhaoyi) 25 พฤศจิกายน 2025
Microsoft Research ระบุว่าชุดเครื่องมือของโมเดลสอดคล้องกับอินเทอร์เฟซ Magentic-UI ซึ่งช่วยให้ดำเนินการได้ เช่น การพิมพ์ การคลิก และการเลื่อน พร้อมทั้งคาดการณ์พิกัดโดยตรงตามตำแหน่งพิกเซลบนหน้าจอ
การทดสอบอิสระโดย Browserbase ตรวจสอบสถานะ”ล้ำสมัย”ของโมเดลสำหรับคลาสขนาด แม้ว่าจะรายงานอัตราความสำเร็จที่ต่ำกว่าเล็กน้อยที่ 62% ใน สภาพโลกแห่งความเป็นจริง แม้จะมีความแตกต่างนี้ แต่โมเดลนี้ยังคงมีการแข่งขันสูง โดยเสนอทางเลือกที่เป็นไปได้แทนโซลูชันที่ใช้ทรัพยากรจำนวนมาก
ประสิทธิภาพด้านต้นทุนเป็นตัวสร้างความแตกต่างที่สำคัญ โดย Microsoft ประมาณต้นทุนเฉลี่ยที่ 0.025 ดอลลาร์ต่องาน เทียบกับ ~0.30 ดอลลาร์สำหรับรุ่นอย่าง GPT-5 หรือ o3 การลดอุปสรรคในการเข้าสู่ โครงสร้างต้นทุนนี้สามารถเร่งการใช้งานตัวแทนในวงกว้างได้อย่างมาก
ตามรายละเอียดใน ประกาศอย่างเป็นทางการ:
“บน WebVoyager นั้น Fara-7B ใช้โทเค็นอินพุตโดยเฉลี่ย 124,000 รายการและ โทเค็นเอาท์พุต 1,100 รายการต่องาน โดยมีการดำเนินการประมาณ 16.5 รายการ เมื่อใช้ราคาโทเค็นในตลาด ทีมวิจัยจะประมาณต้นทุนเฉลี่ย 0.025 ดอลลาร์ต่องาน เทียบกับประมาณ 0.30 ดอลลาร์สำหรับตัวแทน SoM ที่ได้รับการสนับสนุนจากโมเดลการให้เหตุผลที่เป็นกรรมสิทธิ์ เช่น GPT-5 และ o3″
การวัดประสิทธิภาพความเร็วแสดงให้เห็นถึงข้อได้เปรียบที่สำคัญ โดยโมเดลจะเสร็จสิ้นงานในเวลาประมาณ 154 วินาที เทียบกับ 254 วินาทีสำหรับ โมเดล UI-TARS-1.5-7B ที่แข่งขันกัน ตามข้อมูลของ Browserbase
เมื่อรวมกับต้นทุนการดำเนินงานที่ต่ำ การดำเนินการที่รวดเร็วทำให้ Fara-7B เป็นตัวเลือกที่น่าสนใจสำหรับงานอัตโนมัติที่มีปริมาณมาก
แม้จะมีขนาดที่เล็ก แต่ Fara-7B ยังคงรักษาหน้าต่างบริบทจำนวนมากถึง 128,000 โทเค็น ทำให้สามารถรักษาประวัติในเวิร์กโฟลว์ที่ยาวและหลายขั้นตอน ดังที่ระบุไว้ใน การประกาศอย่างเป็นทางการ.
“ในอนาคต เราจะพยายามรักษาโมเดลของเราให้มีขนาดเล็กอยู่เสมอ การวิจัยอย่างต่อเนื่องของเรามุ่งเน้นไปที่การทำให้โมเดลตัวแทนมีความชาญฉลาดและปลอดภัยยิ่งขึ้น ไม่ใช่แค่ใหญ่ขึ้นเท่านั้น” Microsoft กล่าว
บริษัทรับทราบว่าโมเดลดังกล่าวอยู่ระหว่างการทดลอง ชี้ไปที่ข้อจำกัด:
“คุณสามารถทดลองและสร้างต้นแบบด้วย Fara‑7B ได้อย่างอิสระภายใต้ใบอนุญาต MIT แต่เหมาะที่สุดสำหรับนักบินและการพิสูจน์แนวคิด มากกว่าการใช้งานในภารกิจที่สำคัญยิ่ง”
ระบบนิเวศตัวแทน: ความปลอดภัยและการแข่งขัน
เพื่อฝึกอบรมโมเดลโดยไม่ต้องใช้คำอธิบายประกอบของมนุษย์ที่มีราคาแพง Microsoft ได้พัฒนา”FaraGen”ซึ่งเป็นไปป์ไลน์ข้อมูลสังเคราะห์ที่สร้างขึ้น วิถีงานที่ตรวจสอบแล้ว 145,000 เส้นทาง
ปรับขนาดข้อมูลการฝึกอบรมอย่างรวดเร็ว วิธีการนี้จัดการกับปัญหาคอขวดที่สำคัญในการพัฒนาตัวแทน
ความปลอดภัยถูกบังคับใช้ผ่านกลไก”จุดวิกฤต”ซึ่งจะหยุดตัวแทนชั่วคราวและต้องการการอนุมัติจากผู้ใช้ก่อนที่จะดำเนินการที่ไม่สามารถย้อนกลับได้ เช่น การซื้อหรือการส่งอีเมล ตาม ที่เก็บแบบจำลอง:
“จุดวิกฤตหมายถึงสถานการณ์ใด ๆ ที่ต้องใช้ข้อมูลส่วนบุคคลหรือความยินยอมของผู้ใช้ก่อนที่จะเกิดการกระทำที่ไม่สามารถย้อนกลับได้ เช่น การส่งอีเมลหรือการทำธุรกรรมทางการเงินให้เสร็จสิ้น เมื่อถึงจุดเชื่อมต่อดังกล่าว Fara-7B ได้รับการออกแบบให้หยุดชั่วคราวและขออนุมัติผู้ใช้อย่างชัดเจนก่อนที่จะดำเนินการต่อ” […] “แนวทางนี้ช่วยให้องค์กรปฏิบัติตามข้อกำหนดที่เข้มงวดในภาคส่วนที่มีการควบคุม รวมถึง HIPAA และ GLBA”
การแข่งขันด้านอาวุธ”AI แบบตัวแทน”เข้มข้นขึ้น การเปิดตัวจะแข่งขันโดยตรงกับฟีเจอร์การใช้คอมพิวเตอร์ของ Anthropic, การเปิดตัว ChatGPT Agent จาก OpenAI และการแสดงตัวอย่างการใช้คอมพิวเตอร์ Gemini 2.5 จาก Google
ในขณะที่คู่แข่งมุ่งเน้นไปที่โซลูชันบนคลาวด์ Fara-7B ก็ทิ้งช่องว่างสำหรับระดับท้องถิ่นและเน้นความเป็นส่วนตัว ทางเลือกอื่น
ไม่เหมือนกับคู่แข่งที่มักต้องการการเชื่อมต่อคลาวด์ ธรรมชาติแบบเปิดของ Fara-7B ช่วยให้นักพัฒนาสามารถปรับแต่งและปรับใช้โมเดลในสภาพแวดล้อมที่มีช่องว่างอากาศทั้งหมด
Microsoft ได้เปิดตัวโมเดลภายใต้ใบอนุญาต MIT ที่ได้รับอนุญาตบน Hugging Face และ Azure Foundry ซึ่งสนับสนุนให้เกิดการยอมรับและการทำซ้ำของชุมชนในวงกว้าง ตรงกันข้ามกับระบบนิเวศแบบปิดของคู่แข่งหลัก แนวทางแบบเปิดนี้อาจเร่งให้เกิดนวัตกรรมในพื้นที่ตัวแทนในท้องถิ่น