Microsoft ได้เปิดตัวเสียง AI neural ที่เป็นนวัตกรรมใหม่ 4 รายการสำหรับแอปพลิเคชันแปลงข้อความเป็นคำพูด (TTS) ที่ออกแบบมาเป็นพิเศษสำหรับการผสานรวมกับบริการ Azure OpenAI เสียงเหล่านี้มีไว้เพื่อปรับปรุงแชทบอตที่ใช้เสียงพูด ระบบช่วยเสียง และตัวแทนการสนทนา
เสียงที่ปรับให้เหมาะสมสำหรับสถานการณ์การสนทนา
เสียงที่เพิ่งเปิดตัวมีชื่อว่า en-US-AndrewNeural, en-US-BrianNeural, en-US-EmmaNeural (ทั้งหมดเป็นภาษาอังกฤษแบบสหรัฐอเมริกา) และ zh-CH-YunjieNeural (ภาษาจีน) เสียงเหล่านี้ได้รับการปรับแต่งให้เหมาะกับบริบทของการสนทนา และปัจจุบันเปิดให้ชมตัวอย่างสาธารณะใน 3 ภูมิภาค ได้แก่ สหรัฐอเมริกาตะวันออก เอเชียตะวันออกเฉียงใต้ และยุโรปตะวันตก Microsoft ได้จัดเตรียมตัวอย่างเสียงเหล่านี้ โดยเน้นย้ำถึงความก้าวหน้าในการถ่ายทอดคำพูดที่เป็นธรรมชาติและลื่นไหลมากขึ้นเมื่อเปรียบเทียบกับเสียงประสาทที่มีอยู่
“…เป็นมิตรและมองโลกในแง่ดีเกี่ยวกับชีวิต กระตือรือร้นที่จะช่วยเหลือผู้อื่นเสมอ และแบ่งปันสิ่งที่น่าสนใจหรือการปฏิบัติจริง ความรู้. ลีลาการพูดของเสียงคล้ายกับการสนทนากับคนรู้จักเหนือแก้วน้ำ โดยคงน้ำเสียงที่เป็นธรรมชาติและไม่เกินจริง”ข้อความจาก Microsoft นี้เน้นย้ำถึงบุคลิกและน้ำเสียงที่อยู่เบื้องหลังแต่ละเสียง
ความก้าวหน้าทางเทคโนโลยีเบื้องหลังเสียง
ความพยายามอย่างต่อเนื่องของ Microsoft ในการปรับปรุงเทคนิคการสร้างแบบจำลองข้อความเป็นคำพูด (TTS) ได้นำไปสู่การปรับปรุงที่สำคัญในคุณภาพของเสียง AI โปรเจ็กต์ล่าสุด เช่น DelightfulTTS 2 และ MuLanTTS ได้เชื่อมช่องว่างด้านคุณภาพระหว่างเสียง AI กับการบันทึกเสียงของมนุษย์อย่างมืออาชีพ โปรเจ็กต์เหล่านี้ มีบทบาทสำคัญในการผลิตเสียงที่ฟังดูเป็นธรรมชาติและสมจริงมากขึ้น ความก้าวหน้าทางเทคโนโลยีดังกล่าวเป็นรากฐานสำหรับเสียง AI ที่เพิ่งเปิดตัว
นักพัฒนาสามารถรวมเสียงเหล่านี้เข้ากับแอปพลิเคชันของตนได้อย่างราบรื่นโดยใช้ Azure Speech SDK หรือ REST API Azure Bot Framework ยังมีความสามารถในการประดิษฐ์บอทอัจฉริยะที่สามารถใช้เสียง TTS ประสาทใหม่เหล่านี้ได้
ข้อเสนอที่ครอบคลุมของ Microsoft ประกอบด้วยเสียงประสาทมากกว่า 400 รายการ ซึ่งครอบคลุมมากกว่า 140 ภาษาและสถานที่ อาร์เรย์อันกว้างขวางนี้ช่วยให้นักพัฒนาและธุรกิจมีตัวเลือกมากมายในการมอบประสบการณ์การสนทนาที่สมบูรณ์แบบแก่ผู้ใช้