การเริ่มต้น AI French AI Mistral ได้เปิดตัว Voxtral รุ่นโอเพ่นซอร์สครั้งแรกของ Voxtral เมื่อวันอังคารที่ผ่านมาท้าทายการครอบงำของระบบกรรมสิทธิ์โดยตรงจาก Google และ Openai บริษัท ที่ตั้งอยู่ในปารีสกำลังวางตำแหน่งตระกูลโมเดลใหม่เป็นทางเลือกที่มีประสิทธิภาพสูงและคุ้มค่าสำหรับนักพัฒนา

Mistral อ้างว่ามันให้ความเข้าใจคำพูดที่ทันสมัยสำหรับ >

Voxtral เป็นคำตอบโอเพ่นซอร์สของ Mistral สำหรับเสียงที่เป็นกรรมสิทธิ์ AI

Mistral กำลังวางตำแหน่ง voxtral เป็นวิธีแก้ปัญหาของนักพัฒนาที่ยาวนาน เป็นเวลาหลายปีที่ทีมต้องเลือกระหว่างระบบการพูดราคาถูกแหล่งโอเพ่นซอร์สซึ่งมักจะมีอัตราความผิดพลาดสูงและความเข้าใจที่ จำกัด หรือ API ที่เป็นกรรมสิทธิ์ที่มีประสิทธิภาพซึ่งมาพร้อมกับป้ายราคาสูงและการควบคุมการปรับใช้น้อยลง Voxtral มีจุดมุ่งหมายที่จะเชื่อมช่องว่างนี้โดยส่งสิ่งที่ Mistral เรียกว่า”ข่าวกรองการพูดที่ใช้งานได้อย่างแท้จริงในการผลิต”ภายใต้ใบอนุญาต Apache 2.0 ที่ได้รับอนุญาต

บริษัท ได้เปิดตัวครอบครัวของแบบจำลองเพื่อให้เหมาะกับความต้องการที่แตกต่างกัน เรือธงคือ Voxtral Small โมเดลพารามิเตอร์ 24 พันล้านที่ออกแบบมาสำหรับแอปพลิเคชันระดับการผลิต สำหรับการใช้อุปกรณ์หรือการใช้งานในท้องถิ่นมี voxtral mini ซึ่งเป็นตัวแปรพารามิเตอร์ 3 พันล้านขนาดกะทัดรัดมากขึ้น ในที่สุดสำหรับงานที่มีความอ่อนไหว, มีปริมาณมาก, Mistral เสนอการถอดความ voxtral mini, เวอร์ชันที่ได้รับการปรับปรุงและถูกถอดออกอย่างมากมุ่งเน้นไปที่การถอดความอย่างหมดจด

การเข้าถึงเป็นศูนย์กลางของกลยุทธ์ของ Mistral ทั้งรุ่นขนาดเล็กและขนาดเล็กคือ พร้อมใช้งานสำหรับการดาวน์โหลดบนใบหน้ากอด สำหรับภาระงานในท้องถิ่นและในสถานที่ สำหรับการรวมแบบคลาวด์โมเดลสามารถเข้าถึงได้ผ่านการโทร API แบบง่ายโดยมีการกำหนดราคาเริ่มต้นที่เพียง $ 0.001 ต่อนาที บริษัท ยังวางแผนที่จะเปิดตัว Voxtral ในโหมดเสียงของ LE Chat Chatbot

ความสามารถของ Voxtral ขยายไปไกลเกินกว่าข้อความพูดพื้นฐานด้วยพื้นฐานด้วยพื้นฐานของ Mistral Small Language Model กระดูกสันหลัง LLM นี้ให้ความเข้าใจอย่างลึกซึ้งเกี่ยวกับเนื้อหาเสียง ด้วยหน้าต่างบริบท 32,000 Token สามารถประมวลผลไฟล์เสียงได้นานถึง 30 นาทีสำหรับการถอดความและสูงสุด 40 นาทีสำหรับการทำความเข้าใจงานเช่นการถามคำถามที่ซับซ้อนเกี่ยวกับเนื้อหา

สถาปัตยกรรมนี้ช่วยให้มีคุณสมบัติขั้นสูงและในตัวโดยไม่จำเป็นต้องใช้โมเดล AI หลายแบบเข้าด้วยกัน Voxtral สามารถดำเนินการถาม & ตอบแบบดั้งเดิมและการสรุปและรองรับการเรียกใช้ฟังก์ชั่นโดยตรงจากคำสั่งเสียงเปลี่ยนความตั้งใจพูดเป็นคำสั่งระบบที่สามารถดำเนินการได้ นอกจากนี้ยังมีการตรวจจับภาษาอัตโนมัติด้วยประสิทธิภาพที่ล้ำสมัยในภาษาที่ใช้กันอย่างแพร่หลายเช่นภาษาอังกฤษสเปนฝรั่งเศสเยอรมันและภาษาฮินดี

ในการประกาศ Mistral เน้นเป้าหมายของการเพิ่มขีดความสามารถของนักพัฒนา บริษัท กล่าวว่า“ เราเปิดตัวโมเดล voxtral เพื่อเร่งอนาคตนี้รัฐเหล่านี้-รูปแบบการทำความเข้าใจคำพูดของ-ศิลปะมีให้เลือกสองขนาด-ตัวแปร 24B สำหรับแอปพลิเคชันระดับการผลิตและตัวแปร 3B สำหรับการใช้งานในท้องถิ่น การแข่งขันที่เข้มข้นซึ่งยักษ์ใหญ่ด้านเทคโนโลยีและสตาร์ทอัพที่คล่องแคล่วว่องไวกำลังแย่งชิงอำนาจในอนาคตของการโต้ตอบด้วยเสียง เพื่อสนับสนุนการเรียกร้องของมัน Mistral ได้เปิดตัวข้อมูลมาตรฐานที่น่าสนใจวางตำแหน่ง Voxtral ในฐานะผู้นำทั้งประสิทธิภาพและประสิทธิภาพต้นทุน บนเกณฑ์มาตรฐาน Fleurs, Voxtral Small และ Mini transcribe นั่งบนขอบที่ดีที่สุดของเส้นโค้งราคาตามประสิทธิภาพส่งมอบอัตราความผิดพลาดที่ต่ำกว่า Gemini 2.5 Flash ของ Google และ Mini GPT-4O ของ Openai การถอดความความสามารถในการแข่งขันที่หลากหลาย ในขณะที่ Scribe ของ Elevenlabs โพสต์อัตราความผิดพลาดที่ลดลงเล็กน้อยในงานภาษาอังกฤษแบบยาว แต่ก็ทำเช่นนั้นได้มากกว่าสองเท่าของราคาของ voxtral ขนาดเล็กซึ่งเสริมคุณค่าของ Mistral src=”ข้อมูล: image/svg+xml; nitro-empty-id=mty0nto3ndq=-1; base64, phn2zyb2awv3qm94psiwidagoda3idq1ny IGD2LKDGG9IJGWNYIGAGVPZ2H0PSI0NTCIIHHTBG5ZPSJODHRWOI8VD3D3LNCZLM9YZY8YMDALL3N2ZYI+PC9ZDMC+”>

การเปิดตัวนี้ท้าทายความก้าวหน้าอย่างต่อเนื่องจาก Big Tech โดยตรง ในช่วงไม่กี่เดือนที่ผ่านมา OpenAI ได้ขยายโหมดเสียงขั้นสูงไปยังเว็บในขณะที่มานุษยวิทยาเปิดตัวโหมดเสียงสนทนาสำหรับ Claude AI อเมซอนยังเคลื่อนไหวอย่างมีนัยสำคัญในเดือนเมษายนด้วยโมเดลโนวาโซนิคแบบเรียลไทม์ซึ่งได้ถูกรวมเข้ากับ Alexa+ ผู้ช่วยแล้ว ตามที่อุปกรณ์ของ Amazon นำไปสู่ Panos Panay สัญญาว่า“ เมื่อคุณใช้ Alexa+คุณจะรู้สึกได้”

นวัตกรรมไม่ได้ จำกัด อยู่ที่ไจแอนต์ ตลาดยังถูกหล่อหลอมโดย บริษัท สตาร์ทอัพเฉพาะทางสำรวจช่องต่าง ๆ ในเดือนพฤษภาคมความมั่นคง AI ร่วมมือกับ ARM เพื่อปล่อยโมเดลเสียงที่ไม่มีค่าลิขสิทธิ์จัดการกับความกังวลเกี่ยวกับทรัพย์สินทางปัญญาโดยใช้ข้อมูลการฝึกอบรมที่มาจากจริยธรรม CEO Prem Akkaraju เน้นการมุ่งเน้นไปที่ประสิทธิภาพโดยระบุว่า“ เราย้ายจากไม่กี่นาทีเป็นเพียงไม่กี่วินาทีเพื่อสร้างเสียงทั้งหมดบน CPU แขนบนสมาร์ทโฟน”

ที่ปลายอีกด้านของสเปกตรัมการเริ่มต้นการใช้งาน หุบเขา. การแสวงหาปรัชญาเพื่อความถูกต้องทางอารมณ์นี้ถูกจับโดย Andreessen Horowitz ของ Anjney Midha ผู้ซึ่งกล่าวว่า“ ความเรียบอารมณ์ของ AI Audio นั้นเหนื่อยล้าและไม่เป็นธรรมชาติ แต่ถ้าคุณลบการแสดงภาพจาก AR Glasses เป็นการเคลื่อนไหวเชิงกลยุทธ์ในสงคราม AI Talent ที่เพิ่มขึ้น Battle for Top Minds ได้บังคับให้ บริษัท ต่างๆต้องสร้างซื้อหรือ poach การได้มาซึ่งการเริ่มต้นของ Voice AI Playup เมื่อเร็ว ๆ นี้ของ Meta ในราคา $ 45 ล้านเป็นตัวอย่างสำคัญของแนวโน้มนี้

สำหรับ Mistral Voxtral แสดงถึงขั้นตอนสำคัญ บริษัท ได้ประกาศแผนการอัปเดตในอนาคตแล้วรวมถึงการแบ่งกลุ่มวิทยากรการตรวจจับอารมณ์และการประทับเวลาระดับคำ ด้วยการเสนอทางเลือกที่ทรงพลังเปิดกว้างและราคาไม่แพง Mistral กำลังเดิมพันมันสามารถแกะสลักช่องที่สำคัญในอนาคตครั้งแรกด้วยเสียง

Categories: IT Info