OpenAI đã mở rộng các dịch vụ dành cho nhà phát triển bằng cách tung ra phiên bản đầy đủ của mô hình o1 thông qua API. Mô hình lý luận nâng cao này, vượt trội trong các nhiệm vụ phức tạp, nhiều bước, giới thiệu các tính năng mới hứa hẹn định hình lại cách các nhà phát triển xây dựng các ứng dụng hỗ trợ AI.

Bản cập nhật này là một phần trong chuỗi thông báo “12 ngày của OpenAI”, trong đó công ty phát hành các tính năng và bản cập nhật mới cho các sản phẩm chính của mình.

Bên cạnh mô hình o1, OpenAI còn có cũng đã công bố các cải tiến đối với API thời gian thực dành cho tương tác bằng giọng nói và phương pháp tinh chỉnh tùy chọn mới, mang đến cho các nhà phát triển sự linh hoạt chưa từng có.

Mô hình o1-2024-12-17 thay thế phiên bản xem trước o1 ra mắt đầu năm nay. Theo OpenAI, mô hình cập nhật cung cấp “toàn diện hơn”. và phản hồi chính xác, đặc biệt đối với các câu hỏi liên quan đến lập trình và kinh doanh, đồng thời ít có khả năng từ chối yêu cầu một cách sai lầm.”

Những cải tiến này, cùng với việc giảm 60% mức sử dụng mã thông báo lý luận, giúp mô hình o1 nhanh hơn, hiệu quả hơn và linh hoạt hơn.

[nội dung nhúng]

Nâng cao lý luận thông qua API với Mô hình o1

Mô hình o1 của OpenAI được thiết kế để giải quyết các nhiệm vụ đòi hỏi tính nhất quán logic và độ sâu phân tích, vượt trội so với các lần lặp lại trước đó về điểm chuẩn như SWE-Bench đã được xác minhAIME.

OpenAI báo cáo rằng độ chính xác của các tác vụ lập trình đã tăng từ 52,3% lên 76,6%, trong khi hiệu suất giải các bài toán tăng từ 42% lên gần 80%.

CategoryEvalo1-2024-12-17o1-previewChungGPQA kim cương75.773.3MMLU (vượt qua @1)91.890.8CodingSWE-bench Đã xác minh48.941.3LiveCodeBench76.652.3MathMATH (vượt qua @1)96.485.5AIME 2024 (vượt qua @1)79.242.0MGSM (vượt qua @1)89.390.8VisionMMMU (vượt qua @1)77.3—MathVista (vượt qua @1)71.0—FactualitySimpleQA42.642.4AgentsTAU-bench (bán lẻ)73.5—TAU-bench (hãng hàng không)54.2—

Nguồn: OpenAI

Một tính năng nổi bật là hỗ trợ đầu ra có cấu trúc, cho phép các nhà phát triển tạo phản hồi ở các định dạng được xác định trước như JSON.

Điều này đảm bảo tích hợp liền mạch với các hệ thống bên ngoài như API và cơ sở dữ liệu, khiến mô hình trở nên lý tưởng cho các ứng dụng trong hỗ trợ khách hàng, hậu cần và phân tích dữ liệu.

Mô hình này cũng giới thiệu khả năng suy luận trực quan, cho phép phân tích hình ảnh cho các nhiệm vụ như gỡ lỗi hoặc nghiên cứu khoa học. Ví dụ: giờ đây, các nhà phát triển có thể nhập dữ liệu trực quan, chẳng hạn như tài liệu được quét hoặc bản thiết kế và nhận phản hồi theo ngữ cảnh.

Ngoài ra, tham số”nỗ lực suy luận”mới cho phép các nhà phát triển kiểm soát thời gian mô hình dành cho mỗi nhiệm vụ, cân bằng giữa độ chính xác và hiệu quả.

OpenAI đã giải thích trong blog của mình, “Chúng tôi đang triển khai tăng dần quyền truy cập trong khi nỗ lực mở rộng quyền truy cập vào các cấp độ sử dụng bổ sung và tăng giới hạn tốc độ.”

Tăng cường tương tác giọng nói với API thời gian thực

OpenAI cũng có ý nghĩa quan trọng cập nhật thời gian thực của nó API hỗ trợ tương tác bằng giọng nói theo thời gian thực. Việc bổ sung WebRTC, Giao tiếp thời gian thực trên web — một giao thức giao tiếp có độ trễ thấp — cho phép các nhà phát triển tạo các ứng dụng giọng nói liền mạch cho gia sư, trợ lý và công cụ dịch thuật ảo. Nó cho phép kết nối ngang hàng (P2P) mà không yêu cầu plugin hoặc phần mềm bổ sung.

OpenAI đã nêu bật những ưu điểm của WebRTC, nêu, “Trong các trường hợp bạn muốn kết nối với Mô hình thời gian thực từ một máy khách không an toàn qua mạng (như trình duyệt web), chúng tôi khuyên bạn nên sử dụng phương thức kết nối WebRTC. WebRTC được trang bị tốt hơn để xử lý các trạng thái kết nối khác nhau và cung cấp một số API tiện lợi để thu thập âm thanh đầu vào của người dùng và phát các luồng âm thanh từ xa từ mô hình.“

Việc triển khai WebRTC sử dụng cái gọi là mã thông báo tạm thời, các khóa API tạm thời được thiết kế đặc biệt để xác thực an toàn các ứng dụng phía máy khách khi kết nối với API thời gian thực OpenAI qua WebRTC. Mục đích của chúng là đảm bảo cơ chế xác thực an toàn, tồn tại trong thời gian ngắn, tránh để lộ các khóa API tiêu chuẩn nhạy cảm trực tiếp trong môi trường máy khách như trình duyệt web.

Hình ảnh: OpenAI

Các bản nâng cấp lên API thời gian thực đơn giản hóa quá trình phát triển, giảm mã cần thiết cho các ứng dụng giọng nói đồng thời cải thiện chất lượng âm thanh và độ chính xác của phản hồi. Giờ đây, các nhà phát triển có thể xây dựng các ứng dụng bắt đầu hình thành phản hồi trong khi người dùng vẫn đang nói, nâng cao khả năng phản hồi.

Việc điều chỉnh giá giúp các ứng dụng giọng nói dễ tiếp cận hơn. Chi phí của mã thông báo âm thanh GPT-4o đã giảm 60%, trong khi mã thông báo đầu vào được lưu vào bộ nhớ đệm hiện rẻ hơn 87,5%. OpenAI cũng đã giới thiệu GPT-4o mini, một lựa chọn tiết kiệm chi phí cho các nhà phát triển đang tìm kiếm giải pháp thay thế hợp lý, có giá 10 USD trên một triệu mã thông báo đầu vào.

Tinh chỉnh hành vi AI bằng Tinh chỉnh tùy chọn

Tinh chỉnh tùy chọn là một phương pháp tùy chỉnh mới cho phép các nhà phát triển tinh chỉnh hành vi của mô hình dựa trên so sánh các phản hồi theo cặp. Không giống như tinh chỉnh truyền thống dựa trên các cặp đầu vào-đầu ra chính xác, tinh chỉnh tùy chọn dạy mô hình phân biệt giữa phản hồi ưa thích và phản hồi ít mong muốn hơn.

OpenAI mô tả phương pháp này đặc biệt hiệu quả đối với các tác vụ chủ quan, chẳng hạn như như điều chỉnh giọng điệu và phong cách trong văn bản sáng tạo hoặc đảm bảo tuân thủ các yêu cầu định dạng cụ thể. Theo OpenAI, những người áp dụng sớm như một công ty phân tích tài chính, đã báo cáo rằng việc tinh chỉnh tùy chọn đã cải thiện độ chính xác của phản hồi thêm 5% đối với các truy vấn phức tạp, nằm ngoài phạm vi phân phối.

“Chúng tôi đã bắt đầu thử nghiệm Tinh chỉnh tùy chọn với đối tác đáng tin cậy đã nhận thấy kết quả đầy hứa hẹn cho đến nay. Ví dụ: Rogo AI⁠(opens in a new window) đang xây dựng trợ lý AI dành cho các nhà phân tích tài chính giúp chia nhỏ các truy vấn phức tạp thành các truy vấn phụ.

Khi sử dụng điểm chuẩn do chuyên gia xây dựng, Rogo-Golden, họ nhận thấy rằng trong khi Tinh chỉnh được giám sát phải đối mặt với những thách thức với việc mở rộng truy vấn ngoài phân phối—chẳng hạn như thiếu các số liệu như ARR cho các truy vấn như “tốc độ như thế nào công ty X đang phát triển”—Preference Fine-Tuning đã giải quyết những vấn đề này, cải thiện hiệu suất từ ​​độ chính xác 75% trong mô hình cơ sở lên hơn 80%.”

Mở rộng tùy chọn SDK cho nhà phát triển

Để hỗ trợ nhiều môi trường lập trình hơn, OpenAI cũng đã giới thiệu SDK chính thức cho ĐiJava, bên cạnh nócác thư viện hiện có dành cho Python, Node.js và.NET. Các SDK này đơn giản hóa quá trình tích hợp, cho phép nhà phát triển triển khai các mô hình AI trong phần phụ trợ có thể mở rộng hệ thống hoặc ứng dụng doanh nghiệp.

Go SDK được thiết kế cho các ứng dụng phía máy chủ nhẹ và hiệu quả, trong khi Java SDK cung cấp các giải pháp cấp doanh nghiệp, cung cấp khả năng gõ mạnh mẽ và hỗ trợ mạnh mẽ cho các dự án quy mô lớn. Tài liệu của OpenAI cung cấp hướng dẫn chi tiết để tận dụng các công cụ mới này.

Các thông báo trước đó trong “12 ngày của OpenAI”

Vào ngày 16 tháng 12, OpenAI đã triển khai ChatGPT tính năng tìm kiếm trực tiếp trên web có sẵn cho tất cả người dùng, cho phép mọi người truy xuất thông tin cập nhật trực tiếp từ web. 

Ngày 14 tháng 12 đã mang đến các tùy chọn tùy chỉnh mới cho ChatGPT, cho phép người dùng hợp lý hóa các công việc và quản lý dự án một cách hiệu quả. Projects cho phép người dùng nhóm các cuộc trò chuyện, tệp và hướng dẫn tùy chỉnh vào các thư mục chuyên dụng, tạo ra một không gian làm việc có tổ chức để quản lý các nhiệm vụ và quy trình công việc.

Là một cải tiến lớn đối với chế độ giọng nói nâng cao dành cho ChatGPT, OpenAI trên Ngày 12 tháng 12 đã bổ sung thêm các khả năng về thị giác, cho phép người dùng chia sẻ màn hình và video trực tiếp để phân tích và hỗ trợ theo thời gian thực.

Vào ngày 11 tháng 12, OpenAI đã phát hành đầy đủ Canvas, một không gian làm việc chỉnh sửa cộng tác cung cấp các công cụ nâng cao cho cả văn bản và Tinh chỉnh mã ban đầu được đưa ra. Trong phiên bản beta vào tháng 10 năm 2024, Canvas thay thế giao diện tiêu chuẩn của ChatGPT bằng thiết kế chia đôi màn hình, cho phép người dùng làm việc trên văn bản hoặc mã trong khi tham gia trao đổi hội thoại với AI.

Việc bổ sung khả năng thực thi Python là một điểm nổi bật tính năng của Canvas, cho phép các nhà phát triển viết, kiểm tra và gỡ lỗi các tập lệnh trực tiếp trong nền tảng. OpenAI đã thể hiện tiện ích của mình trong một sự kiện trực tiếp bằng cách sử dụng Python để tạo và tinh chỉnh trực quan hóa dữ liệu. OpenAI mô tả tính năng này là “giảm ma sát giữa việc tạo và triển khai ý tưởng”.

Vào ngày 9 tháng 12, OpenAI đã chính thức ra mắt Sora, công cụ AI tiên tiến giúp tạo video từ lời nhắc bằng văn bản, báo hiệu một kỷ nguyên mới cho AI sáng tạo. Được tích hợp vào các tài khoản ChatGPT trả phí, Sora cho phép người dùng tạo hoạt ảnh cho hình ảnh tĩnh, mở rộng video hiện có và hợp nhất các cảnh thành các câu chuyện liền mạch.

Được phát hành vào ngày 7 tháng 12 là Tinh chỉnh tăng cường dưới dạng một khung mới được thiết kế để cho phép tùy chỉnh các mô hình AI cho các ứng dụng dành riêng cho ngành. Đây là cách tiếp cận mới nhất của OpenAI để cải thiện các mô hình AI bằng cách đào tạo chúng bằng các bộ dữ liệu và hệ thống chấm điểm do nhà phát triển cung cấp. Không giống như phương pháp học tập có giám sát truyền thống, vốn tập trung vào việc tái tạo các kết quả đầu ra mong muốn

Vào ngày 5 tháng 12, OpenAI đã ra mắt ChatGPT Pro, một gói đăng ký cao cấp mới có giá 200 USD mỗi tháng, nhắm đến các chuyên gia và doanh nghiệp đang tìm kiếm khả năng AI nâng cao cho quy trình làm việc có nhu cầu cao.

Categories: IT Info