Xiaomi está fazendo uma jogada significativa na arena da Voice AI com o lançamento do MidaShenglm-7b, um poderoso modelo de áudio de código aberto agora disponível para desenvolvedores em todo o mundo. Soltando plataformas como abraçar o rosto em 2 de agosto, o modelo desafia diretamente os sistemas proprietários do Google e do Open. Ao contrário de muitos concorrentes, o midashenglm usa um método inovador de treinamento baseado em legenda para uma compreensão mais holística da fala, música e sons ambientais. Ao lançá-lo sob uma licença Apache 2.0 comercialmente amigável, a Xiaomi pretende democratizar a AID AUDIO AID. A plataforma Dasheng subjacente já está em mais de 30 aplicações. Midashenglm-7b não é apenas mais uma entrada no campo de voz lotada da IA; É um desafio direto apoiado por um conjunto robusto de métricas de desempenho. Os benchmarks detalhados da empresa mostram que o modelo de parâmetros de 7 bilhões supera significativamente os rivais estabelecidos como QWEN2.5-OMNI-7B e Kimi-Audio-instruct em uma ampla variedade de tarefas de compreensão de áudio. Na legenda de áudio, por exemplo, ele tem pontuações substancialmente mais altas em conjuntos de dados como MusicCaps e AutoACD, demonstrando uma capacidade mais sutil de descrever cenas de áudio complexas. Na referência VGGSOUND, o midashenglm atinge uma precisão de 52,11%, enquanto o concorrente mais próximo, QWEN2.5-OMNI-7B, tem menos de 1%. Isso sugere uma capacidade superior na identificação e categorização de diversos sons ambientais, uma função crítica para aplicações domésticas e automotivas inteligentes. O modelo também mostra os principais resultados na identificação do alto-falante e do idioma em benchmarks como VoxceleB1 e Voxlingua107, reforçando seu design holístico. A Xiaomi relata uma aceleração de rendimento de 3,2x em tamanhos de lote comparáveis e um tempo para o primeiro toke href=”https://huggingface.co/mispeech/midashenglm-7b”Target=”_ Blank”> SOM MODELO . Essa eficiência não é apenas uma métrica teórica; Ele se traduz em custos operacionais mais baixos e uma experiência mais responsiva do usuário. Fundamentalmente, o modelo pode processar tamanhos de lote muito maiores-até 512 em uma GPU de 80 GB, onde os concorrentes falham-, por um potencial aumento de rendimento de 20x, que é fundamental para os serviços escaláveis do mundo real. Embora demonstre resultados fortes e competitivos em chinês e vários outros idiomas como indonésios e tailandesos, ele lidera ligeiramente liderando modelos especializados em alguns benchmarks em inglês, como o LibriPeech. Esse trade-off parece ser um resultado direto de seu treinamento mais amplo e focado na legenda, que prioriza o entendimento holístico de áudio sobre a transcrição pura, uma escolha estratégica que o diferencia de muitos concorrentes do ASR-primeiro. inteligência sobre transcrição simples. Em vez de confiar no reconhecimento de fala automática tradicional (ASR) para treinamento, o midaShenglm é construído com um novo método de”legenda de áudio geral”. Essa abordagem inovadora é alimentada pela ACAVCAPS, um conjunto de dados enorme e com curadoria meticulosamente com curadoria de 38.662 horas derivado do repositório de áudio ACAV100M de código aberto. Conforme detalhado em sua documentação técnica, os sistemas ASR tradicionais descartam uma grande quantidade de informações que não sejam de fala, como música e sons ambientais. Eles também perdem pistas paralinguísticas cruciais, como emoção de orador e propriedades acústicas. Por outro lado, as legendas podem utilizar todo o conteúdo de áudio, capturar o contexto global de uma gravação e fornecer um sinal de aprendizado mais desafiador para o modelo, forçando-o a desenvolver um entendimento mais profundo.

A criação do conjunto de dados ACAVCAPS foi um empreendimento significativo em si. Cada legenda foi gerada através de um processo sofisticado de três etapas: análise inicial por vários modelos especialistas (para fala, música e acústica), seguida pelo raciocínio orientado por LLM para sintetizar os metadados e, finalmente, um estágio de filtragem para garantir alta consistência de texto de audiote. Este pipeline rigoroso garante que os dados de treinamento sejam ricos, diversos e com precisão reflita o contexto completo do áudio. href=”https://huggingface.co/qwen/qwen2.5-omni-7b”Target=”_ Blank”> Qwen2.5-omni-7b Modelo de pensador , que serve como o decodificador fundamental. Essa estrutura unificada permite que o sistema lide com a fala, sons ambientais e elementos musicais simultaneamente, interpretando-os como um todo coeso, em vez de separar fluxos de dados. A abordagem baseada em legenda da Xiaomi atende diretamente a essa necessidade, com o objetivo de criar uma inteligência de áudio mais sutil e abrangente que possa alimentar a próxima geração de aplicações de voz. Ele posiciona o midashenglm como uma alternativa atraente e comercialmente viável aos modelos proprietários dependentes da API da Big Tech. Esse movimento reflete a estratégia de código aberto recentemente empregado pela IA Mistral da França. Isso cria uma nova frente nas guerras da IA, colocando os desafiantes de código aberto contra gigantes estabelecidos.

O cenário competitivo é ferozmente contestado. Nos últimos meses, a Amazon lançou seu expressivo modelo No Nova Sonic, com os dispositivos da Amazon liderando Panos Panay promissores:”Quando você usa o Alexa+, vai sentir isso”. Enquanto isso, a voz antrópica lançada para sua IA Claude, e o OpenAI continua a aprimorar o modo de voz do ChatGPT.

Categories: IT Info