A
xiaomi jelentős lépést tesz a hang AI arénában, a MidashenglM-7B megjelenésével, amely egy erős, nyílt forrású audio modell, amely most a fejlesztők számára elérhető világszerte. A platformok, mint például az arc átölelése augusztus 2-án, leesik , a modell közvetlenül kihívja a Google és az Openai védelmező rendszereit. Sok versenytárssal ellentétben a Midashenglm innovatív felirat-alapú képzési módszert alkalmaz a beszéd, a zene és a környezeti hangok holisztikusabb megértésére. Ha egy kereskedelmi szempontból barátságos Apache 2.0 licenc alatt bocsátja ki, a Xiaomi a fejlett audio AI demokratizálására irányul. A mögöttes Dasheng platform már több mint 30 alkalmazásban található. A MidashenglM-7B nem csak egy újabb belépés a zsúfolt hang AI mezőbe; Ez egy közvetlen kihívás, amelyet egy robusztus teljesítménymutatókészlet támogat. A vállalat részletes referenciaértékei a 7 milliárd paramétermodellt mutatják, amely jelentősen felülmúlja a létrehozott riválisokat, mint például a QWEN2.5-OMNI-7B és a KIMI-Audio-Instruktus az audio megértési feladatok széles skáláján. Például az audio feliratozásban lényegesen magasabb pontszámot eredményez az olyan adatkészleteken, mint a MusicCaps és az AutoACD, amely egy árnyaltabb képességet mutat be az összetett audio jelenetek leírására. A VGGSound referenciaértékén a Midashenglm 52,11%-os pontosságot ér el, míg a legközelebbi versenytársa, a QWEN2.5-OMNI-7B, kevesebb, mint 1%. Ez azt sugallja, hogy kiválóan képes a különféle környezeti hangok azonosításában és kategorizálásában, ami kritikus funkció az intelligens otthoni és autóipari alkalmazások számára. A modell a hangszóró és a nyelv azonosításának vezető eredményeit is mutatja olyan referenciaértékeknél, mint a VoxCeleb1 és a Voxlingua107, megerősítve annak holisztikus kialakítását. A Xiaomi 3,2x átjárható sebességet jelent az összehasonlítható kötegelt méretben és egy olyan idő-first-token-en, amely négyszer gyorsabb, mint qwen qwen href=”https://hugggingface.co/mispeech/midashenglm-7b”Target=”_ üres”>’S modell . Ez a hatékonyság nem csak egy elméleti mutató; Ez alacsonyabb működési költségeket és reagálóbb felhasználói élményt jelent. Lényeges, hogy a modell sokkal nagyobb kötegelt méreteket képes feldolgozni-512-re egy 80 GB-os GPU-nál, ahol a versenytársak kudarcot vallnak-, meg nem zárva a potenciális 20x átjárható növekedést, amely kritikus jelentőségű a skálázható, valós szolgáltatások szempontjából. Noha erős, versenyképes eredményeket mutat a kínai és számos más nyelven, például Indonéz és Thai nyelven, kissé nyomon követi a speciális modelleket néhány angol nyelvű referenciaértéken, például a Libriseech-en. Úgy tűnik, hogy ez a kompromisszum a szélesebb körű, feliratra összpontosító képzésének közvetlen eredménye, amely a holisztikus audio megértést prioritást élvezi a tiszta átíráshoz képest, egy stratégiai választás, amely megkülönbözteti azt a sok ASR-első versenytárstól. Átírás. Ahelyett, hogy a hagyományos automatikus beszédfelismerésre (ASR) támaszkodna az edzésre, a Midashenglm új „általános audio felirat” módszerre épül. Ezt az innovatív megközelítést az ACAVCAPS táplálja, egy hatalmas, aprólékosan kurátoros, 38 662 órás adatkészletet, amely a nyílt forrású ACAV100M audio adattárból származik. A műszaki dokumentációban részletesebben a hagyományos ASR rendszerek hatalmas mennyiségű nem beszédes információt, például zenét és környezeti hangokat dobnak el. Hiányoznak a kritikus paralingvisztikus útmutatások, például a hangszórók érzelmei és az akusztikus tulajdonságok. Ezzel szemben a feliratok felhasználhatják az összes audio-tartalmat, rögzíthetik a felvétel globális kontextusát, és egy nagyobb kihívást jelentő tanulási jelet biztosíthatnak a modell számára, arra kényszerítve, hogy mélyebb megértést dolgozzon ki.
Az Acavcaps adatkészlet létrehozása önmagában jelentős vállalkozás volt. Mindegyik felirat egy kifinomult háromlépéses folyamat révén állított elő: a kezdeti elemzés több szakértői modell segítségével (beszéd, zene és akusztika), amelyet az LLM-vezérelt érvelés követ a metaadatok szintetizálására, és végül egy szűrési szakasz a magas audio-szövegek konzisztenciájának biztosítása érdekében. Ez a szigorú csővezeték biztosítja, hogy az edzési adatok gazdag, változatos, és pontosan tükrözik az audio teljes kontextusát. href=”https://hugggingface.co/qwen/qwen2.5-oMni-7b”Target=”_ üres”> QWen2.5-Omni-7B Thinker modell , amely alapvető dekóderként szolgál. Ez az egységes keret lehetővé teszi a rendszer számára, hogy a beszédet, a környezeti hangokat és a zenei elemeket egyszerre kezelje, és inkább összetartó egészként értelmezve őket, nem pedig külön adatfolyamokat. A Xiaomi képaláírási alapú megközelítése közvetlenül foglalkozik ezzel a szükségletgel, azzal a céllal, hogy egy árnyaltabb és átfogóbb audio intelligenciát hozzon létre, amely táplálja a hang-első alkalmazások következő generációját. A Midashenglm-et vonzó, kereskedelmileg életképes alternatívaként helyezi el a Big Tech tulajdonosi, API-kapuval ellátott modelljeihez. Ez a lépés tükrözi a francia Mistral AI-ben a közelmúltban alkalmazott nyílt forráskódú stratégiát. Ez új frontot teremt az AI háborúkban, és nyílt forráskódú kihívókat dob a megalapozott óriások ellen.
A versenyképet hevesen vitatják. Az elmúlt hónapokban az Amazon elindította a valós idejű expresszív Nova Sonic modelljét, az Amazon eszközei pedig a Panos Panay vezetésével: „Amikor az Alexa+-ot használja, akkor ezt fogja érezni.” Eközben az antropikus hangot dobott a Claude AI-hez, és az Openai továbbra is fokozza a Chatgpt hangját.