Openai đang tăng cường khả năng AI của AI, chính thức ra mắt API thời gian thực cho các nhà phát triển trên toàn thế giới vào thứ năm. Trung tâm của bản phát hành là GPT-Realtime, một mô hình bài phát biểu thành bài phát biểu mới, hứa hẹn các cuộc trò chuyện biểu cảm, tự nhiên hơn với chi phí thấp hơn 20%. Chúng bao gồm hỗ trợ cho đầu vào hình ảnh, tích hợp cuộc gọi điện thoại thông qua SIP và kết nối dữ liệu được sắp xếp hợp lý bằng giao thức bối cảnh mô hình (MCP). src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>
dưới mui xe: mô hình giọng nói thông minh và biểu cảm hơn trong mô hình. OpenAI tuyên bố đó là Mô hình giọng nói được sản xuất, nâng cao nhất Nó đã đạt 82,8% trên đánh giá âm thanh băng ghế dự bị lớn cho lý luận, một bước nhảy lớn từ mô hình trước đó là 65,6%. Điều này cho phép nó diễn giải tốt hơn các tín hiệu phi ngôn ngữ như tiếng cười, chuyển ngôn ngữ giữa câu giữa và xử lý chính xác các chuỗi chữ và số. Mô hình đã cải thiện điểm số của nó trên điểm chuẩn âm thanh MultiChallenge từ 20,6% lên 30,5%, cho phép nó tuân thủ đáng tin cậy hơn các lời nhắc của nhà phát triển cụ thể, chẳng hạn như đọc một từ chối trách nhiệm pháp lý trong một cuộc gọi hỗ trợ. Ở đây, độ chính xác của chức năng GPT-Realtime, trên điểm chuẩn ComplexFunCbench đã tăng lên 66,5% từ 49,7%. Điều này đảm bảo mô hình gọi các chức năng phù hợp với các đối số chính xác nhất quán hơn. Nó có thể làm theo các hướng dẫn chi tiết, chẳng hạn như nói tiếng nói nhanh và chuyên nghiệp”hoặc nói về mặt đồng cảm với giọng Pháp”, để tạo ra trải nghiệm phù hợp hơn. Cập nhật Openai, là một nỗ lực trực tiếp để tạo ra trải nghiệm người dùng hấp dẫn và ít hơn nữa. Nó đã chuyển ra khỏi bản beta công khai bắt đầu vào tháng 10 năm 2024, mang theo một bộ khả năng mới mạnh mẽ được thiết kế cho các ứng dụng trong thế giới thực. OpenAI lưu ý rằng phản hồi từ hàng ngàn nhà phát triển trong bản beta đã giúp định hình các cải tiến sẵn sàng sản xuất này. Máy chủ. Tiêu chuẩn mở này đơn giản hóa cách các mô hình AI kết nối với dữ liệu bên ngoài. Bây giờ các nhà phát triển có thể Chuyển URL của máy chủ MCP từ xa vào cấu hình phiên Một bước quan trọng để xây dựng các đại lý kinh doanh có khả năng trong khi ưu tiên dữ liệu và quyền riêng tư của người dùng. Hệ thống coi hình ảnh như một ảnh chụp nhanh được thêm vào trò chuyện, không phải là luồng video trực tiếp, đảm bảo các nhà phát triển giữ quyền kiểm soát những gì mô hình nhìn thấy. Điều này mở khóa các trường hợp sử dụng như yêu cầu một đại lý mô tả một bức ảnh hoặc đọc văn bản từ ảnh chụp màn hình. Zvel, được truy cập sớm, đang sử dụng API để cung cấp năng lượng cho tìm kiếm nhà thế hệ tiếp theo của nó. Người đứng đầu công ty AI AI, Josh Weisberg, đã báo cáo rằng, nó thể hiện lý do mạnh mẽ hơn và lời nói tự nhiên hơn cho phép nó xử lý các yêu cầu phức tạp, nhiều bước như thu hẹp danh sách theo nhu cầu lối sống,”làm nổi bật tiềm năng của nó đối với các tương tác của khách hàng phức tạp. Các đối thủ đang tích cực thúc đẩy các công nghệ giọng nói của riêng họ. Vào tháng Năm, Anthropic đã thực hiện một mục đáng kể bằng cách tung ra chế độ giọng nói cho AI Claude của nó. Gần đây, Meta đã leo thang cuộc chiến tài năng bằng cách mua lại Playai khởi nghiệp bằng giọng nói với giá 45 triệu đô la được báo cáo vào tháng 7 để củng cố trợ lý AI và kính thông minh.
Categories: IT Info