Ang Xiaomi ay gumagawa ng isang makabuluhang paglipat sa boses AI arena sa paglabas ng Midashenglm-7B, isang malakas na open-source audio model na magagamit na ngayon sa mga developer sa buong mundo. Ang pagbagsak sa mga platform tulad ng pagyakap sa mukha noong Agosto 2 , ang modelo ay direktang naghahamon ng mga proprietary system mula sa Google at Openai. Hindi tulad ng maraming mga kakumpitensya, ang Midashenglm ay gumagamit ng isang makabagong paraan ng pagsasanay na batay sa caption para sa isang mas holistic na pag-unawa sa mga tunog ng pagsasalita, musika, at nakapaligid. Sa pamamagitan ng paglabas nito sa ilalim ng isang lisensya sa komersyal na Apache 2.0, naglalayong Xiaomi na i-democratize ang advanced na audio AI. Ang pinagbabatayan na platform ng Dasheng ay nasa higit sa 30 mga aplikasyon. Ang Midashenglm-7B ay hindi lamang isa pang pagpasok sa masikip na boses na AI Field; Ito ay isang direktang hamon na sinusuportahan ng isang matatag na hanay ng mga sukatan ng pagganap. Ang detalyadong benchmark ng kumpanya ay nagpapakita ng 7-bilyong modelo ng parameter na makabuluhang higit na naitatag na mga karibal tulad ng QWEN2.5-OMNI-7B at Kimi-Audio-Instruct sa buong malawak na mga gawain sa pag-unawa sa audio. Sa audio captioning, halimbawa, malaki ang marka nito sa mga datasets tulad ng MusicCaps at AutoACD, na nagpapakita ng isang mas nakakainis na kakayahang ilarawan ang mga kumplikadong mga eksena sa audio. Sa benchmark ng VGGSOund, nakamit ng Midashenglm ang isang katumpakan na 52.11%, samantalang ang pinakamalapit na katunggali nito, ang QWEN2.5-OMNI-7B, ay may marka na mas mababa sa 1%. Ito ay nagmumungkahi ng isang mahusay na kakayahan sa pagkilala at pag-uuri ng magkakaibang mga tunog ng kapaligiran, isang kritikal na pag-andar para sa matalinong mga aplikasyon sa bahay at automotiko. Ipinapakita rin ng modelo ang mga nangungunang resulta sa pagkakakilanlan ng speaker at wika sa mga benchmark tulad ng Voxceleb1 at Voxlingua107, pinalakas ang holistic na disenyo nito. Iniulat ni Xiaomi ang isang 3.2x throughput speedup sa maihahambing na laki ng batch at isang time-to-first-token na hanggang sa apat na beses na mas mabilis kaysa sa qwen ‘s model . Ang kahusayan na ito ay hindi lamang isang teoretikal na sukatan; Isinasalin ito sa mas mababang mga gastos sa pagpapatakbo at isang mas tumutugon karanasan sa gumagamit. Crucially, ang modelo ay maaaring magproseso ng mas malaking laki ng batch-hanggang sa 512 sa isang 80GB GPU kung saan nabigo ang mga kakumpitensya-hindi nag-aalangan ng isang potensyal na pagtaas ng 20x throughput na kritikal para sa nasusukat, real-world services. Habang nagpapakita ito ng malakas, mapagkumpitensyang mga resulta sa Intsik at maraming iba pang mga wika tulad ng Indonesian at Thai, bahagyang mga daanan na nangunguna sa mga dalubhasang modelo sa ilang mga benchmark na wikang Ingles tulad ng LibrisPeech. Ang trade-off na ito ay lilitaw na isang direktang resulta ng mas malawak, pagsasanay na nakatuon sa caption, na inuuna ang pag-unawa sa holistic audio sa purong transkrip katalinuhan sa simpleng transkripsyon. Sa halip na umasa sa tradisyonal na awtomatikong pagkilala sa pagsasalita (ASR) para sa pagsasanay, ang Midashenglm ay itinayo sa isang nobelang”pangkalahatang audio caption”na pamamaraan. Ang makabagong diskarte na ito ay pinalakas ng Acavcaps, isang napakalaking, maingat na na-curated 38,662-oras na dataset na nagmula sa bukas na mapagkukunan ng ACAV100m audio repository. Tulad ng detalyado sa teknikal na dokumentasyon nito, ang tradisyonal na mga sistema ng ASR ay nagtatapon ng isang malawak na halaga ng impormasyon na hindi pagsasalita, tulad ng mga tunog ng musika at kapaligiran. Namimiss din nila ang mga mahahalagang paralinguistic cues tulad ng emosyon ng speaker at acoustic na mga katangian. Sa kaibahan, ang mga caption ay maaaring magamit ang lahat ng nilalaman ng audio, makuha ang pandaigdigang konteksto ng isang pag-record, at magbigay ng isang mas mapaghamong signal ng pag-aaral para sa modelo, na pinilit itong bumuo ng isang mas malalim na pag-unawa. Ang bawat caption ay nabuo sa pamamagitan ng isang sopistikadong proseso ng tatlong-hakbang: paunang pagsusuri ng maraming mga dalubhasang modelo (para sa pagsasalita, musika, at acoustics), na sinundan ng LLM na hinihimok na pangangatuwiran upang synthesize ang metadata, at sa wakas, isang yugto ng pag-filter upang matiyak ang mataas na pagkakapare-pareho ng audio-text. Ang mahigpit na pipeline na ito ay nagsisiguro na ang data ng pagsasanay ay mayaman, magkakaibang, at tumpak na sumasalamin sa buong konteksto ng audio. href=”https://huggingface.co/qwen/qwen2.5-omni-7b”target=”_ blangko”> qwen2.5-omni-7b na modelo ng nag-iisip , na nagsisilbing pundasyon ng decoder. Ang pinag-isang balangkas na ito ay nagbibigay-daan sa system na hawakan ang pagsasalita, tunog ng kapaligiran, at mga elemento ng musikal nang sabay-sabay, na nagbibigay kahulugan sa mga ito bilang isang cohesive buo kaysa sa hiwalay na mga stream ng data. Ang diskarte na nakabatay sa caption na batay sa Xiaomi ay direktang tinutugunan ang pangangailangang ito, na naglalayong lumikha ng isang mas nakakainis at komprehensibong audio intelligence na maaaring makapangyarihan sa susunod na henerasyon ng mga aplikasyon ng boses-first. Pinoposisyon nito ang Midashenglm bilang isang kaakit-akit, komersyal na mabubuhay na alternatibo sa pagmamay-ari, mga modelo ng API-gated mula sa Big Tech. Ang hakbang na ito ay sumasalamin sa bukas na mapagkukunan na diskarte na ginamit kamakailan ng Mistral AI ng Pransya. Lumilikha ito ng isang bagong harapan sa mga digmaan ng AI, na nag-iingat ng mga open-source na mga hamon laban sa mga itinatag na higante. Sa mga nagdaang buwan, inilunsad ng Amazon ang real-time na nagpapahayag na modelo ng Nova Sonic, kasama ang mga aparato ng Amazon na humantong sa Panos Panay na nangangako,”Kapag ginamit mo ang Alexa+, mararamdaman mo ito.”Samantala, ang anthropic na gumulong ng boses para sa Claude AI, at ang OpenAi ay patuloy na mapahusay ang mode ng boses ng Chatgpt.

Categories: IT Info