Openai đang tăng cường khả năng AI của AI, chính thức ra mắt API thời gian thực cho các nhà phát triển trên toàn thế giới vào thứ năm. Trung tâm của bản phát hành là GPT-Realtime, một mô hình bài phát biểu thành bài phát biểu mới, hứa hẹn các cuộc trò chuyện biểu cảm, tự nhiên hơn với chi phí thấp hơn 20%. Chúng bao gồm hỗ trợ cho đầu vào hình ảnh, tích hợp cuộc gọi điện thoại thông qua SIP và kết nối dữ liệu được sắp xếp hợp lý bằng giao thức bối cảnh mô hình (MCP). src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>

dưới mui xe: mô hình giọng nói thông minh và biểu cảm hơn trong mô hình. OpenAI tuyên bố đó là Mô hình giọng nói được sản xuất, nâng cao nhất Nó đã đạt 82,8% trên đánh giá âm thanh băng ghế dự bị lớn cho lý luận, một bước nhảy lớn từ mô hình trước đó là 65,6%. Điều này cho phép nó diễn giải tốt hơn các tín hiệu phi ngôn ngữ như tiếng cười, chuyển ngôn ngữ giữa câu giữa và xử lý chính xác các chuỗi chữ và số. Mô hình đã cải thiện điểm số của nó trên điểm chuẩn âm thanh MultiChallenge từ 20,6% lên 30,5%, cho phép nó tuân thủ đáng tin cậy hơn các lời nhắc của nhà phát triển cụ thể, chẳng hạn như đọc một từ chối trách nhiệm pháp lý trong một cuộc gọi hỗ trợ. Ở đây, độ chính xác của chức năng GPT-Realtime, trên điểm chuẩn ComplexFunCbench đã tăng lên 66,5% từ 49,7%. Điều này đảm bảo mô hình gọi các chức năng phù hợp với các đối số chính xác nhất quán hơn. Nó có thể làm theo các hướng dẫn chi tiết, chẳng hạn như nói tiếng nói nhanh và chuyên nghiệp”hoặc nói về mặt đồng cảm với giọng Pháp”, để tạo ra trải nghiệm phù hợp hơn. Cập nhật Openai, là một nỗ lực trực tiếp để tạo ra trải nghiệm người dùng hấp dẫn và ít hơn nữa. Nó đã chuyển ra khỏi bản beta công khai bắt đầu vào tháng 10 năm 2024, mang theo một bộ khả năng mới mạnh mẽ được thiết kế cho các ứng dụng trong thế giới thực. OpenAI lưu ý rằng phản hồi từ hàng ngàn nhà phát triển trong bản beta đã giúp định hình các cải tiến sẵn sàng sản xuất này. Máy chủ. Tiêu chuẩn mở này đơn giản hóa cách các mô hình AI kết nối với dữ liệu bên ngoài. Bây giờ các nhà phát triển có thể Chuyển URL của máy chủ MCP từ xa vào cấu hình phiên Một bước quan trọng để xây dựng các đại lý kinh doanh có khả năng trong khi ưu tiên dữ liệu và quyền riêng tư của người dùng. Hệ thống coi hình ảnh như một ảnh chụp nhanh được thêm vào trò chuyện, không phải là luồng video trực tiếp, đảm bảo các nhà phát triển giữ quyền kiểm soát những gì mô hình nhìn thấy. Điều này mở khóa các trường hợp sử dụng như yêu cầu một đại lý mô tả một bức ảnh hoặc đọc văn bản từ ảnh chụp màn hình. Zvel, được truy cập sớm, đang sử dụng API để cung cấp năng lượng cho tìm kiếm nhà thế hệ tiếp theo của nó. Người đứng đầu công ty AI AI, Josh Weisberg, đã báo cáo rằng, nó thể hiện lý do mạnh mẽ hơn và lời nói tự nhiên hơn cho phép nó xử lý các yêu cầu phức tạp, nhiều bước như thu hẹp danh sách theo nhu cầu lối sống,”làm nổi bật tiềm năng của nó đối với các tương tác của khách hàng phức tạp. Các đối thủ đang tích cực thúc đẩy các công nghệ giọng nói của riêng họ. Vào tháng Năm, Anthropic đã thực hiện một mục đáng kể bằng cách tung ra chế độ giọng nói cho AI Claude của nó. Gần đây, Meta đã leo thang cuộc chiến tài năng bằng cách mua lại Playai khởi nghiệp bằng giọng nói với giá 45 triệu đô la được báo cáo vào tháng 7 để củng cố trợ lý AI và kính thông minh.

Cộng đồng nguồn mở cũng đang thực hiện một thách thức đáng gờm. Khởi nghiệp của Pháp, Mistral đã phát hành các mô hình voxtral vào tháng 7, nhằm mục đích cắt giảm các hệ thống độc quyền với giấy phép Apache 2.0 cho phép và lời hứa về hiệu suất hiện đại với giá chưa đến một nửa so với API cạnh tranh. Nó sử dụng một phương pháp đào tạo dựa trên chú thích sáng tạo để hiểu toàn diện hơn về lời nói, âm nhạc và âm thanh xung quanh, cũng theo giấy phép thân thiện với thương mại. Vào tháng Tư, Amazon đã ra mắt mô hình Nova Sonic biểu cảm thời gian thực, được tích hợp vào Alexa+ Assistant. Các thiết bị của nó dẫn đầu, Panos Panay, trước đây đã hứa rằng khi bạn sử dụng Alexa+, bạn sẽ cảm thấy nó,”báo hiệu một sự thúc đẩy cho các tương tác cộng hưởng cảm xúc hơn. Sự ổn định AI đang giải quyết việc xử lý trên thiết bị, trong khi những người khác như Sesame AI đang đẩy ranh giới của chủ nghĩa hiện thực để tạo ra các trợ lý nghe có vẻ của con người”, nắm bắt sự không hoàn hảo tự nhiên như tạm dừng và có khả năng dẫn đầu. Công ty đang đặt cược rằng một trải nghiệm phát triển vượt trội sẽ là yếu tố quyết định trong cuộc chiến nền tảng leo thang này.