Microsoft กำลังเสริมสร้างพอร์ตโฟลิโอ AI ด้วยการเปิดตัว PHI-4-MINI และ Phi-4-multimodal ขยายตระกูล Phi-4 โมเดลใหม่เหล่านี้ช่วยให้ บริษัท มุ่งเน้นไปที่การพัฒนาระบบ AI ขนาดกะทัดรัดที่รักษาประสิทธิภาพสูงในขณะที่ส่งมอบประสิทธิภาพที่เทียบเท่ากับรุ่นที่มีขนาดใหญ่กว่า
การแนะนำของ phi-4-mini ซึ่งเป็นโมเดล AI ที่มีน้ำหนักเบาและการเพิ่มขึ้นของความสามารถในการประมวลผลภาพขนาดเล็ก ติดตามการตัดสินใจของ Microsoft ในการเปิดแหล่งกำเนิด PHI-4 ในเดือนมกราคม 2568 ทำให้สามารถใช้งานได้อย่างอิสระภายใต้ใบอนุญาต MIT
>
Phi-4-mini ยังคงแนวโน้มการเข้าถึงนี้ในขณะที่ Phi-4-multimodal แนะนำความสามารถที่สอดคล้องกับความก้าวหน้าของ AI ล่าสุดโดย Openai, Google และ Meta ทั้งสองรุ่นได้รวมเข้ากับ Azure Ai
การผลักดันของ Microsoft สำหรับรุ่น AI ขนาดเล็กกว่าได้รับการตรวจสอบในเดือนธันวาคม 2567 เมื่อ Phi-4 เหนือกว่ารุ่น AI ที่มีขนาดใหญ่กว่าในงานให้เหตุผลซึ่งแสดงให้เห็นว่าการฝึกอบรมที่ดีที่สุดสามารถเปิดใช้งานโมเดลขนาดเล็กให้ตรงกับหรือสูงกว่าคู่ที่ใหญ่กว่า
หลังจากประสบความสำเร็จ href=”https://huggingface.co/microsoft/phi-4/blob/main/readme.md#phi-4-model-card”> ปล่อยน้ำหนักรุ่นของ Phi-4 ในการกอดใบหน้า วิศวกร Microsoft Shital Shah ยืนยันการตัดสินใจโดยระบุว่า“ มีคนจำนวนมากขอให้เราปล่อยน้ำหนัก ไม่กี่คนที่อัปโหลดน้ำหนัก phi-4 bootlegged บน huggingface 😬 ไม่ต้องรออีกต่อไป เรากำลังเปิดตัวโมเดล PHI-4 อย่างเป็นทางการในวันนี้บน HuggingFace! ด้วยใบอนุญาต MIT !!”
phi-4-multimodal เป็นโมเดลพารามิเตอร์ 5.6b ที่รวมคำพูดวิสัยทัศน์และการประมวลผลข้อความลงในสถาปัตยกรรมเดียวที่รวมเป็นหนึ่งเดียว รูปภาพหรือการประมวลผลข้อมูลข้อความมันให้การอนุมานที่มีประสิทธิภาพสูงและมีความสามารถต่ำ-ทั้งหมดในขณะที่เพิ่มประสิทธิภาพสำหรับการดำเนินการในอุปกรณ์และลดค่าใช้จ่ายในการคำนวณ”
phi-4-multimodal สามารถประมวลผลทั้งภาพและเสียง เกณฑ์มาตรฐาน (ที่มา: Microsoft)
Phi-4-multimodal ยังแสดงให้เห็นถึงความสามารถที่ยอดเยี่ยมในงานที่เกี่ยวข้องกับการพูดกลายเป็นแบบเปิดโล่งในหลาย ๆ ด้าน href=”https://huggingface.co/spaces/hf-audio/open_asr_leaderboard”target=”_ blank”> huggingface openasr กระดานผู้นำที่มีอัตราความผิดพลาดคำที่น่าประทับใจ 6.14% GPT-4O-REALTITE-PREVIEW ในการตอบคำถามคำพูด (QA) งานเป็นขนาดรุ่นที่เล็กกว่าส่งผลให้ความสามารถน้อยกว่าในการรักษาความรู้ QA ที่เป็นจริง”
phi-4-multimodal มาตรฐานการพูด (ที่มา: Microsoft)
Phi-4-multimodal, espite ขนาดที่เล็กกว่าด้วยพารามิเตอร์เพียง 5.6b แสดงให้เห็นถึงความสามารถในการมองเห็นที่น่าทึ่งในการวัดประสิทธิภาพที่หลากหลาย (OCR) และการใช้เหตุผลด้านวิทยาศาสตร์การจับคู่การจับคู่หรือเกินกว่ารุ่นที่ใกล้ชิดเช่น Gemini-2-Flash-Lite-Preview/Claude-3.5-Sonnet”
phi-4-multimodal มาตรฐานการมองเห็น (ที่มา: Microsoft)
รุ่นอื่น ๆ Phi-4-Mini เป็นรุ่นพารามิเตอร์ 3.8b ที่มีสถาปัตยกรรมหม้อแปลงที่มีความหนาแน่นสูงเท่านั้น รองรับลำดับสูงถึง 128,000 โทเค็นที่มีความแม่นยำและความยืดหยุ่นสูง
ตาม Microsoft“ PHI-4-MINI สามารถให้เหตุผลผ่านการสืบค้นระบุและเรียกใช้ฟังก์ชั่นที่เกี่ยวข้องด้วยพารามิเตอร์ที่เหมาะสมได้รับเอาต์พุตฟังก์ชั่นและรวมผลลัพธ์เหล่านั้นไว้ในการตอบสนอง สิ่งนี้จะสร้างระบบที่ใช้เอเจนต์ที่ขยายได้ซึ่งความสามารถของโมเดลสามารถปรับปรุงได้โดยการเชื่อมต่อกับเครื่องมือภายนอกอินเตอร์เฟสโปรแกรมแอปพลิเคชัน (APIs) และแหล่งข้อมูลผ่านอินเทอร์เฟซฟังก์ชั่นที่กำหนดไว้อย่างดี”
phi-4-mini มาตรฐานภาษา (ที่มา: Microsoft)
ทำไม Microsoft กำลังเดิมพันในรุ่น AI ที่เล็กกว่า
การเปิดตัว Phi-4-Mini และ Phi-4-multimodal สามารถจัดทำโมเดล Microsoft ได้ ความสามารถในขณะที่ทำงานเกี่ยวกับโครงสร้างพื้นฐานที่มีต้นทุนต่ำ โดยการฝึกอบรม AI เกี่ยวกับชุดข้อมูลสังเคราะห์ที่ดูแลแทนที่จะพึ่งพาเนื้อหาที่สัดส่วนบนเว็บเพียงอย่างเดียว Microsoft สามารถมั่นใจได้ว่าการใช้เหตุผลเชิงตรรกะที่ดีขึ้นโดยไม่ต้องใช้ค่าใช้จ่ายในการคำนวณที่ไม่จำเป็น วิธีนี้มีบทบาทสำคัญในประสิทธิภาพทางคณิตศาสตร์ที่แข็งแกร่งของ PHI-4 ซึ่งเป็นการตอกย้ำว่าโมเดลขนาดเล็กที่ผ่านการฝึกอบรมมาอย่างดีสามารถท้าทายระบบ AI ที่มีขนาดใหญ่ขึ้น
องค์ประกอบสำคัญอีกประการหนึ่งคือการตัดสินใจของ Microsoft ในการปรับสมดุลการเข้าถึงโอเพนซอร์ซกับการรวมระบบคลาวด์ขององค์กร ด้วยการทำให้ Phi-4-mini เปิดใช้งานอย่างเปิดเผยในขณะที่รักษา phi-4-multimodal ภายในระบบนิเวศของ Azure Microsoft กำลังจัดเลี้ยงทั้งนักพัฒนาอิสระและธุรกิจที่พึ่งพาโซลูชั่น AI ที่ได้รับการจัดการ
วิธีการคู่นี้ตรงกันข้ามกับ OpenAI ซึ่ง จำกัด การเข้าถึงโมเดลล่าสุดและ Mistral AI ซึ่งมุ่งเน้นไปที่การปรับใช้ในท้องถิ่นมากกว่าบริการ AI บนคลาวด์