Amazon đang thách thức hiện trạng trong Voice AI với Nova Sonic, một mô hình phát biểu mới, diễn giải không chỉ những gì người dùng nói, mà là cách họ nói. Được thiết kế để xử lý sự thay đổi giọng hát, giai điệu và nhịp trong thời gian thực, Nova Sonic bỏ qua hoàn toàn đường ống phát ngôn truyền thống từ văn bản. Thay vào đó, nó lắng nghe và trả lời trực tiếp trong bài phát biểu tổng hợp biểu cảm, mang đến cho người dùng cảm giác của một cuộc trò chuyện giống con người. Amazon cũng báo cáo rằng mô hình đã được đào tạo trên hơn 100.000 giờ bài phát biểu, bao gồm hàng trăm phong cách loa, lứa tuổi và điểm nhấn. Trên điểm chuẩn Librispeech đa ngôn ngữ, nó đã đạt được tỷ lệ lỗi từ 4,2% trên tiếng Anh, tiếng Pháp, tiếng Ý, tiếng Đức và tiếng Tây Ban Nha. Amazon cũng đã đóng khung mô hình là tiết kiệm chi phí, nói rằng nó rẻ hơn khoảng 80% so với OpenaiTHER GPT-4O.