Microsoft đã cung cấp nguồn mở Phi-4, mô hình ngôn ngữ nhỏ gọn của mình, cho công chúng bằng cách phát hành toàn bộ trọng lượng của nó trên Ôm mặt theo Giấy phép MIT.
Phi-4, được giới thiệu lần đầu tiên vào tháng 12 năm 2024 thông qua Nền tảng Azure AI Foundry của Microsoft ban đầu chỉ được cung cấp cho các nhà nghiên cứu theo giấy phép được kiểm soát. Với bản phát hành mã nguồn mở, Microsoft cung cấp cho các nhà nghiên cứu và nhà phát triển trên toàn thế giới các công cụ để tùy chỉnh, triển khai và thương mại hóa mô hình nhỏ gọn nhưng hiệu suất cao.
Phi-4: Một mô hình nhỏ gọn với ngoại cỡ Kết quả
Phi-4 thể hiện sự khởi đầu từ sự phát triển AI truyền thống vốn thường ưu tiên quy mô làm thước đo chính cho hiệu suất. Chỉ với 14 tỷ thông số, Phi-4 mang lại kết quả sánh ngang và thậm chí vượt qua các đối thủ lớn hơn, chẳng hạn như Gemini Pro 1.5 của Google và GPT-4o của OpenAI.
Nguồn: Microsoft
Trong các điểm chuẩn gần đây, Phi-4 đã đạt điểm cao ấn tượng 91,8 trong Kỳ thi Toán học Mỹ (AMC 12), vượt trội so với số điểm 89,8 của Gemini Pro 1.5 và 77,9 của GPT-4o.
Microsoft đã thể hiện khả năng suy luận toán học của Phi-4 thông qua một bài toán tổ hợp, trong đó mô hình này đã tính toán chính xác 431 hoán vị riêng biệt cho một cuộc đua giả định liên quan đến năm con ốc sên.
Phi-4 vượt trội hơn nhiều so với các mô hình lớn hơn, bao gồm cả Gemini Pro 1.5, trong các bài toán cạnh tranh (Nguồn: Microsoft)
Mức độ chính xác này nêu bật tiềm năng của nó đối với các lĩnh vực đòi hỏi sự chặt chẽ về logic và toán học, chẳng hạn như tài chính, kỹ thuật và khoa học nghiên cứu.
Microsoft đã giải thích các mục tiêu của mình đối với Phi-4 trong tài liệu chính thức của mình: “Phi-4 tiếp tục vượt qua ranh giới giữa kích thước và chất lượng”, một quan điểm được lặp lại bởi các nhà nghiên cứu đã so sánh hiệu suất của nó với các mẫu có gấp năm lần số lượng tham số.
Phương pháp đào tạo và dữ liệu tổng hợp
Nền tảng thành công của Phi-4 nằm ở phương pháp đào tạo của Microsoft tận dụng các bộ dữ liệu tổng hợp. bao gồm nội dung theo phong cách sách giáo khoa, nhấn mạnh vào lý luận toán học, lập trình và logic thông thường. Các bộ dữ liệu này, với tổng cộng 9,8 nghìn tỷ token, được bổ sung bằng các tài liệu công cộng, văn bản học thuật và dữ liệu đa ngôn ngữ được tuyển chọn.
“Thay vì đóng vai trò thay thế rẻ tiền cho dữ liệu hữu cơ, dữ liệu tổng hợp mang lại những lợi thế trực tiếp”, Microsoft lưu ý trong báo cáo kỹ thuật của mình, nêu bật khả năng kiểm soát và khả năng thích ứng mà nó mang lại trong quá trình đào tạo mô hình. Cách tiếp cận này cũng làm giảm sự phụ thuộc vào nội dung được thu thập trên web, thường bị chỉ trích vì chất lượng không nhất quán.
Để nâng cao khả năng lập luận và sự liên kết của mô hình, Microsoft đã áp dụng. các kỹ thuật nâng cao sau đào tạo như tinh chỉnh có giám sát và tối ưu hóa tùy chọn trực tiếp. Các phương pháp này đã cải tiến khả năng của Phi-4 trong việc phân biệt giữa đầu ra chất lượng cao và chất lượng thấp, nâng cao hơn nữa độ chính xác của nó trong các ứng dụng dành riêng cho miền.
Tính khả dụng của nguồn mở
Quyết định phát hành Phi-4 dưới dạng nguồn mở phản ánh chiến lược rộng lớn hơn của Microsoft nhằm dân chủ hóa các công cụ AI. Các nhà phát triển hiện có thể truy cập mô hình trên
Chúng tôi hoàn toàn ngạc nhiên trước phản hồi về việc phát hành phi-4. Rất nhiều người đã yêu cầu chúng tôi giảm cân. Thậm chí một số ít đã tải trọng lượng phi-4 lậu lên HuggingFace😬.
Chà, chờ đã. hơn nữa. Chúng tôi sẽ phát hành chính thức ngày hôm nay mô hình phi-4 trên HuggingFace!
Với giấy phép MIT!! pic.twitter.com/rcugWBPU4r
-Shah chết tiệt (@sytelus) Ngày 8 tháng 1 năm 2025
Bản phát hành nguồn mở cho phép các nhà phát triển tùy chỉnh Phi-4 dành cho các ứng dụng cụ thể không có chi phí tính toán thường được kết hợp với các mô hình lớn hơn, kiến trúc dày đặc, chỉ dành cho bộ giải mã, một biến thể của mô hình máy biến áp, giúp giảm thiểu các yêu cầu về tài nguyên. nó có thể truy cập được ngay cả đối với các tổ chức có cơ sở hạ tầng hạn chế.
Các cân nhắc về đạo đức và tác động của ngành
Việc triển khai Phi-4 của Microsoft nêu bật cam kết triển khai AI có trách nhiệm của công ty. Nền tảng Azure AI Foundry, ban đầu lưu trữ Phi-4, kết hợp các biện pháp bảo vệ như lọc nội dung và thử nghiệm đối thủ. Các biện pháp này được thiết kế để giảm thiểu rủi ro như sai lệch, thông tin sai lệch và tạo ra nội dung có hại.
Bằng cách phát hành Phi-4 theo giấy phép nguồn mở, Microsoft cũng giải quyết nhu cầu ngày càng tăng về tính minh bạch trong quá trình phát triển AI. Động thái này phù hợp với xu hướng của ngành trong các bản phát hành như Llama 3.2 của Meta và dòng Gemma của Google, mặc dù hiệu suất vượt trội của Phi-4 trong các điểm chuẩn đặt ra tiêu chuẩn mới cho các mẫu nhỏ gọn.
Phi-4 thách thức giả định rằng các mẫu lớn hơn vốn đã tốt hơn. Thiết kế nhỏ gọn của nó không chỉ giảm chi phí tính toán và năng lượng mà còn mở rộng khả năng tiếp cận các khả năng AI tiên tiến. Hiệu quả này đặc biệt có giá trị đối với các tổ chức và nhà nghiên cứu quy mô vừa, những người thiếu nguồn lực để triển khai các mô hình lớn.
Khi AI tiếp tục phát triển, Phi-4 mang đến cái nhìn thoáng qua về một tương lai nơi các mô hình nhỏ hơn, thông minh hơn có thể đáp ứng đáp ứng nhu cầu của các nhiệm vụ chuyên môn mà không ảnh hưởng đến hiệu suất.