Khung rStar-Math của Microsoft cho phép các mô hình AI nhỏ hoạt động tốt hơn dòng o1 của OpenAI

Microsoft đã giới thiệu rStar-Math, sự tiếp nối và cải tiến của rStar framework, để vượt qua ranh giới của các mô hình ngôn ngữ nhỏ (SLM) trong lý luận toán học.

Được thiết kế để cạnh tranh với các hệ thống lớn hơn như o1-preview của OpenAI, rStar-Math đạt được các tiêu chuẩn đáng chú ý trong việc giải quyết vấn đề đồng thời chứng minh các mô hình nhỏ gọn có thể hoạt động như thế nào ở mức độ cạnh tranh. Sự phát triển này cho thấy sự thay đổi trong ưu tiên của AI, chuyển từ mở rộng quy mô sang tối ưu hóa hiệu suất cho các nhiệm vụ cụ thể.

Nâng cao từ rStar lên rStar-Math

RStar khuôn khổ từ mùa hè năm ngoái đã đặt nền tảng cho việc tăng cường lý luận SLM thông qua Tìm kiếm cây Monte Carlo (MCTS), một thuật toán tinh chỉnh các giải pháp bằng cách mô phỏng và xác thực nhiều đường dẫn.

rStar đã chứng minh rằng các mô hình nhỏ hơn có thể xử lý các tác vụ phức tạp nhưng ứng dụng của nó vẫn mang tính chung chung. rStar-Math xây dựng trên nền tảng này với những cải tiến có mục tiêu phù hợp với lý luận toán học.

Trọng tâm thành công của rStar-Math là phương pháp chuỗi suy nghĩ (CoT) được tăng cường mã, trong đó mô hình tạo ra các giải pháp trong cả hai lĩnh vực ngôn ngữ tự nhiên và mã Python thực thi được.

Cấu trúc đầu ra kép này đảm bảo rằng các bước suy luận trung gian có thể kiểm chứng được, giảm thiểu lỗi và duy trì tính nhất quán logic. Các nhà nghiên cứu nhấn mạnh tầm quan trọng của phương pháp này, cho biết: “Sự nhất quán lẫn nhau phản ánh thực tiễn chung của con người khi không có sự giám sát, trong đó sự nhất trí giữa các đồng nghiệp về các câu trả lời xuất phát cho thấy khả năng đúng cao hơn”.

Liên quan: Mô hình xem trước R1-Lite-Preview DeepSeek của Trung Quốc nhắm đến vị trí dẫn đầu của OpenAI trong lý luận tự động

Ngoài CoT, rStar-Math còn giới thiệu Mô hình ưu tiên quy trình (PPM), đánh giá và xếp hạng các bước trung gian dựa trên chất lượng Không giống như các hệ thống khen thưởng truyền thống thường dựa vào dữ liệu ồn ào, PPM ưu tiên sự mạch lạc và chính xác về mặt logic, nâng cao hơn nữa độ tin cậy của mô hình. Các nhà nghiên cứu viết:

“PPM tận dụng thực tế rằng, mặc dù giá trị Q. vẫn không đủ chính xác để ghi điểm từng bước lý luận mặc dù đã sử dụng triển khai MCTS rộng rãi, nhưng giá trị Q có thể phân biệt các bước tích cực (đúng) với các bước tiêu cực (không liên quan/không chính xác) một cách đáng tin cậy.

Do đó, phương pháp đào tạo xây dựng ưu tiên cặp cho mỗi bước dựa trên giá trị Q và sử dụng tổn thất xếp hạng theo cặp để tối ưu hóa dự đoán điểm PPM cho từng bước suy luận, đạt được nhãn đáng tin cậy. Cách tiếp cận này tránh các phương pháp thông thường sử dụng trực tiếp giá trị Q làm nhãn phần thưởng, vốn gây nhiễu và không chính xác trong việc phân bổ phần thưởng theo từng bước.”

Cuối cùng, một công thức tự tiến hóa gồm bốn vòng giúp dần dần xây dựng cả một biên giới mô hình chính sách và PPM từ đầu.

Quy trình suy luận rSTar-Math (Nguồn: bài nghiên cứu)

Hiệu suất thách thức các mô hình lớn hơn

rStar-Math đặt ra các tiêu chuẩn mới trong các tiêu chuẩn lý luận toán học, đạt được các kết quả sánh ngang và trong một số trường hợp vượt qua các trường hợp của các hệ thống AI lớn hơn

Trên tập dữ liệu GSM8K, một bài kiểm tra khả năng suy luận toán học. , độ chính xác của mô hình 7 tỷ tham số được cải thiện từ 12,51% lên 63,91% sau khi tích hợp rStar-Math. href=”https://en.wikipedia.org/wiki/American_Invitational_Mathematics_Examination”>Bài thi Toán mời của Hoa Kỳ (AIME), mô hình này giải được 53,3% số bài toán, đưa nó vào top 20% số học sinh trung học tham gia nhiều nhất.

Kết quả của tập dữ liệu MATH cũng ấn tượng không kém, trong đó rStar-Math đạt tỷ lệ chính xác 90%, vượt trội so với o1-preview của OpenAI.

Hiệu suất của rStar-Math và các LLM tiên phong khác trên các điểm chuẩn toán học thách thức nhất (Nguồn: bài nghiên cứu)

Những thành tựu này nêu bật khả năng của khung trong việc cho phép SLM xử lý các nhiệm vụ trước đây do các mô hình lớn sử dụng nhiều tài nguyên chi phối. Bằng cách nhấn mạnh tính nhất quán về mặt logic và các bước trung gian có thể kiểm chứng, rStar-Math giải quyết một trong những thách thức dai dẳng nhất của AI: đảm bảo lý luận đáng tin cậy trong các không gian vấn đề phức tạp.

Những cải tiến kỹ thuật thúc đẩy rStar-Math

Sự phát triển từ rStar sang rStar-Math mang đến một số tiến bộ quan trọng. Việc tích hợp MCTS vẫn là trọng tâm của khung, cho phép mô hình khám phá các con đường suy luận đa dạng và ưu tiên những con đường có triển vọng nhất.

Việc bổ sung lý luận CoT, tập trung vào xác minh mã, đảm bảo rằng kết quả đầu ra vừa dễ hiểu vừa chính xác.

Liên quan: QwQ-32B của Alibaba-Preview tham gia cuộc chiến suy luận mô hình AI với OpenAI

Có lẽ biến đổi lớn nhất là quá trình đào tạo tự tiến hóa của rStar-Math. Trải qua bốn vòng lặp lại, khung này sẽ tinh chỉnh mô hình chính sách và PPM của mình, kết hợp dữ liệu lý luận chất lượng cao hơn ở mỗi bước.

Cách tiếp cận lặp đi lặp lại này cho phép mô hình liên tục cải thiện hiệu suất, đạt được kết quả tiên tiến mà không cần dựa vào sự chắt lọc từ các mô hình lớn hơn.

So sánh rStar-Math tới o1 của OpenAI

Trong khi Microsoft tập trung vào việc tối ưu hóa các mô hình nhỏ hơn thì OpenAI tiếp tục ưu tiên mở rộng quy mô hệ thống của mình.

o1 Chế độ Pro, được giới thiệu vào tháng 12 năm 2024 như một phần của Gói ChatGPT Pro, cung cấp khả năng suy luận nâng cao được thiết kế riêng cho các ứng dụng có mức đặt cược cao như mã hóa và nghiên cứu khoa học. OpenAI báo cáo rằng o1 Pro Mode đã đạt được tỷ lệ chính xác 86% trên AIME và tỷ lệ thành công 90% trong các tiêu chuẩn mã hóa như Codeforces.

rStar-Math thể hiện sự thay đổi trong đổi mới AI, thách thức sự tập trung của ngành vào các mô hình lớn hơn là phương tiện chính để đạt được lý luận nâng cao. Bằng cách tăng cường SLM bằng các tối ưu hóa dành riêng cho từng miền, Microsoft cung cấp giải pháp thay thế bền vững giúp giảm chi phí tính toán và tác động đến môi trường.

Liên quan: Sự liên kết có chủ ý: Chiến lược an toàn của OpenAI cho các mô hình tư duy o1 và o3

Thành công của khung này trong lý luận toán học mở ra cánh cửa cho các ứng dụng rộng hơn, từ giáo dục cho đến nghiên cứu khoa học.

Các nhà nghiên cứu có kế hoạch phát hành mã và dữ liệu của rStar-Math trên GitHub, mở đường cho sự hợp tác và phát triển hơn nữa. Tính minh bạch này phản ánh cách tiếp cận của Microsoft nhằm giúp nhiều đối tượng hơn có thể tiếp cận các công cụ AI hiệu suất cao, bao gồm cả các tổ chức học thuật và tổ chức quy mô vừa.

Liên quan: SemiAnalysis: Không, AI Scaling Is’Không chậm lại

Khi sự cạnh tranh giữa Microsoft và OpenAI ngày càng gay gắt, những tiến bộ do rStar-Math giới thiệu nêu bật tiềm năng của các mô hình nhỏ hơn trong việc thách thức sự thống trị của các hệ thống lớn hơn. Bằng cách ưu tiên tính hiệu quả và độ chính xác, rStar-Math đặt ra tiêu chuẩn mới cho những gì hệ thống AI nhỏ gọn có thể đạt được.

Khung rStar-Math của Microsoft cho phép các mô hình AI nhỏ hoạt động tốt hơn dòng o1 của OpenAI

Published by All Things Windows on January 10, 2025

Nâng cao từ rStar lên rStar-Math

Hiệu suất thách thức các mô hình lớn hơn

Những cải tiến kỹ thuật thúc đẩy rStar-Math

So sánh rStar-Math tới o1 của OpenAI

IT Info

Máy tính xách tay Google Google phát triển thành nền tảng nội dung với các máy tính xách tay nổi bật từ The Economist, The Atlantic

IT Info

Giải thưởng Lầu Năm Góc Google, Openai và Hợp đồng AI chính của nhân học, thúc đẩy công nghệ Rush Gold Rush Rush

IT Info

XAI từ mới GROK-4 Jailbroken trong vòng 48 giờ bằng cách sử dụng các cuộc tấn công thì thầm

Khung rStar-Math của Microsoft cho phép các mô hình AI nhỏ hoạt động tốt hơn dòng o1 của OpenAI

Published by All Things Windows on January 10, 2025

Nâng cao từ rStar lên rStar-Math

Hiệu suất thách thức các mô hình lớn hơn

Những cải tiến kỹ thuật thúc đẩy rStar-Math

So sánh rStar-Math tới o1 của OpenAI

Related Posts

IT Info

Máy tính xách tay Google Google phát triển thành nền tảng nội dung với các máy tính xách tay nổi bật từ The Economist, The Atlantic

IT Info

Giải thưởng Lầu Năm Góc Google, Openai và Hợp đồng AI chính của nhân học, thúc đẩy công nghệ Rush Gold Rush Rush

IT Info

XAI từ mới GROK-4 Jailbroken trong vòng 48 giờ bằng cách sử dụng các cuộc tấn công thì thầm