ภายใต้ฮูด Openai อ้างว่ามันเป็น โมเดลเสียงที่พร้อมการผลิตขั้นสูงที่สุด ได้คะแนน 82.8% จากการประเมินเสียงขนาดใหญ่สำหรับการให้เหตุผลซึ่งเป็นการกระโดดครั้งใหญ่จากรุ่นก่อนหน้า 65.6% สิ่งนี้ช่วยให้สามารถตีความตัวชี้นำที่ไม่ใช่คำพูดได้ดีขึ้นเช่นเสียงหัวเราะสลับภาษากลางประโยคและจัดการลำดับตัวอักษรและตัวเลขได้อย่างแม่นยำ
การติดตามคำสั่งซึ่งเป็นฟังก์ชั่นที่สำคัญสำหรับตัวแทนที่เชื่อถือได้ โมเดลปรับปรุงคะแนนตามเกณฑ์มาตรฐานเสียง Multichallenge จาก 20.6% เป็น 30.5% ทำให้สามารถตอบสนองได้อย่างน่าเชื่อถือมากขึ้นในการแจ้งเตือนนักพัฒนาที่เฉพาะเจาะจงเช่นการอ่านคำต่อคำปฏิเสธความรับผิดชอบทางกฎหมายในการโทรสนับสนุน
[เนื้อหาที่ฝังอยู่] ที่นี่ความแม่นยำในการเรียกใช้ฟังก์ชั่นของ GPT-REALTIME บนเกณฑ์มาตรฐาน ComplexFuncbench เพิ่มขึ้นเป็น 66.5% จาก 49.7% สิ่งนี้ทำให้มั่นใจได้ว่าโมเดลจะเรียกฟังก์ชั่นที่ถูกต้องด้วยข้อโต้แย้งที่ถูกต้องอย่างต่อเนื่องมากขึ้น
นอกเหนือจากข่าวกรองดิบโมเดลได้รับการฝึกฝนให้สร้างคำพูดที่มีคุณภาพสูงขึ้นด้วยเสียงสูงที่เหมือนมนุษย์อารมณ์และจังหวะ มันสามารถทำตามคำแนะนำที่ละเอียดเช่น“ พูดได้อย่างรวดเร็วและเป็นมืออาชีพ” หรือ“ พูดอย่างเห็นอกเห็นใจในสำเนียงฝรั่งเศส” เพื่อสร้างประสบการณ์ที่ปรับแต่งได้มากขึ้น
เพื่อแสดงผลกำไรเหล่านี้ บริษัท ปล่อยเสียงใหม่สองครั้ง การอัปเดตของ OpenAI เป็นความพยายามโดยตรงในการสร้างประสบการณ์ผู้ใช้หุ่นยนต์ที่มีส่วนร่วมและน้อยลง
นักพัฒนาซุปเปอร์ชาร์จ: การอัพเกรด API สำหรับตัวแทนพร้อมการผลิต
นอกเหนือจากรุ่นใหม่ มันย้ายออกจากเบต้าสาธารณะที่เริ่มขึ้นในเดือนตุลาคม 2567 นำมาซึ่งความสามารถใหม่ที่ทรงพลังที่ออกแบบมาสำหรับแอปพลิเคชันในโลกแห่งความเป็นจริง Openai ตั้งข้อสังเกตว่าข้อเสนอแนะจากนักพัฒนาหลายพันคนในช่วงเบต้าช่วยกำหนดรูปแบบการปรับปรุงพร้อมการผลิตเหล่านี้
สถาปัตยกรรมของ API ซึ่งประมวลผลเสียงโดยตรงผ่านแบบจำลองเดียวได้รับการออกแบบมาเพื่อลดเวลาแฝงและรักษาความแตกต่างในการพูด เซิร์ฟเวอร์ มาตรฐานแบบเปิดนี้ช่วยให้โมเดล AI เชื่อมต่อกับข้อมูลภายนอกได้อย่างไร นักพัฒนาสามารถ ส่งผ่าน URL ของเซิร์ฟเวอร์ MCP ระยะไกลในการกำหนดค่าเซสชัน ขั้นตอนที่สำคัญสำหรับการสร้างตัวแทนธุรกิจที่มีความสามารถในขณะที่จัดลำดับความสำคัญของข้อมูลผู้ใช้และความเป็นส่วนตัว
ตอนนี้ API ยังรองรับอินพุตภาพทำให้สามารถสนทนาหลายรูปแบบที่ตัวแทนสามารถวิเคราะห์และอภิปรายสิ่งที่ผู้ใช้เห็น ระบบปฏิบัติต่อภาพเช่นสแน็ปช็อตที่เพิ่มเข้ามาในการแชทไม่ใช่สตรีมวิดีโอสดเพื่อให้มั่นใจว่านักพัฒนายังคงควบคุมสิ่งที่โมเดลเห็น การปลดล็อคนี้ใช้กรณีเช่นขอให้ตัวแทนอธิบายรูปภาพหรืออ่านข้อความจากภาพหน้าจอ
นอกจากนี้การสนับสนุนโปรโตคอลการเริ่มต้นเซสชันใหม่ (SIP) ช่วยให้การรวมโดยตรงกับเครือข่ายโทรศัพท์สาธารณะระบบ PBX Zillow ซึ่งได้รับการเข้าถึงเร็วกำลังใช้ API เพื่อเพิ่มพลังงานในการค้นหาบ้านรุ่นต่อไป Josh Weisberg หัวหน้า AI ของ บริษัท รายงานว่า“ มันแสดงให้เห็นถึงการใช้เหตุผลที่แข็งแกร่งและการพูดที่เป็นธรรมชาติมากขึ้น…อนุญาตให้จัดการคำขอที่ซับซ้อนหลายขั้นตอนเช่นรายชื่อที่แคบลงตามความต้องการของไลฟ์สไตล์…” การเน้นย้ำถึงการเปิดตัวของลูกค้า คู่แข่งกำลังพัฒนาเทคโนโลยีเสียงของตัวเองอย่างจริงจัง ในเดือนพฤษภาคมมานุษยวิทยาได้เข้ามามีส่วนสำคัญโดยการเปิดตัวโหมดเสียงสำหรับ Claude AI เมื่อไม่นานมานี้ Meta ได้เพิ่มความสามารถในการทำสงครามด้วยการซื้อ Voice Startup Playai ในราคา $ 45 ล้านในเดือนกรกฎาคมเพื่อหนุนผู้ช่วย AI และแว่นตาอัจฉริยะ
ชุมชนโอเพนซอร์ซยังเป็นความท้าทายที่น่าเกรงขาม การเริ่มต้นของฝรั่งเศส Distral เปิดตัวโมเดล voxtral ในเดือนกรกฎาคมโดยมีเป้าหมายที่จะตัดราคาระบบที่เป็นกรรมสิทธิ์ด้วยใบอนุญาต Apache 2.0 ที่ได้รับอนุญาตและสัญญาของการแสดงที่ล้ำสมัยในราคาน้อยกว่าครึ่งหนึ่งของราคา APIs คู่แข่ง
ในเดือนนี้ Xiaomi ตาม Playbook ที่คล้ายกัน มันใช้วิธีการฝึกอบรมที่ใช้คำบรรยายใต้ภาพนวัตกรรมเพื่อความเข้าใจแบบองค์รวมมากขึ้นเกี่ยวกับการพูดดนตรีและเสียงรอบข้างภายใต้ใบอนุญาตที่เป็นมิตรกับการค้า
แม้แต่ยักษ์ใหญ่ด้านเทคโนโลยีที่จัดตั้งขึ้นก็ยังไม่หยุดนิ่ง ในเดือนเมษายนอเมซอนเปิดตัวโมเดลโนวาโซนิคแบบเรียลไทม์ซึ่งถูกรวมเข้ากับ Alexa+ Assistant อุปกรณ์ของมันนำไปสู่ Panos Panay ก่อนหน้านี้สัญญาว่า“ เมื่อคุณใช้ Alexa+คุณจะรู้สึกได้” ส่งสัญญาณการผลักดันให้มีการโต้ตอบทางอารมณ์มากขึ้น
นวัตกรรมขยายไปถึงการเริ่มต้นพิเศษเช่นกัน ความเสถียร AI กำลังจัดการกับการประมวลผลบนอุปกรณ์ในขณะที่คนอื่น ๆ เช่นงา AI กำลังผลักดันขอบเขตของความสมจริงเพื่อสร้าง“ ผู้ช่วยที่ทำให้มนุษย์อย่างน่าขนลุก” ที่โอบกอดความไม่สมบูรณ์ตามธรรมชาติเช่นหยุดชั่วคราว บริษัท กำลังเดิมพันว่าประสบการณ์นักพัฒนาซอฟต์แวร์ที่เหนือกว่าจะเป็นปัจจัยในการตัดสินใจในสงครามแพลตฟอร์มที่เพิ่มขึ้นนี้