A ElevenLabs está se transformando de um provedor especializado de IA de voz em um centro de produção multimodal abrangente, integrando modelos de vídeo de ponta da OpenAI, Google e Kling em sua plataforma Studio.

Anunciada hoje, a atualização permite que os criadores gerem recursos visuais usando modelos restritos de nível empresarial, incluindo o Sora 2 Pro da OpenAI e o Veo 3.1 do Google, diretamente junto com as ferramentas de áudio nativas da ElevenLabs.

Em um comunicado, o A equipe da ElevenLabs enfatizou que a atualização “unifica os modelos de IA mais avançados com nossas ferramentas de voz, som e música líderes do setor”, consolidando efetivamente os melhores recursos generativos em uma única assinatura. A empresa está posicionando seu Studio como um “Adobe para IA” unificado, desafiando fluxos de trabalho fragmentados que forçam os usuários a manipular aplicativos separados para produção de roteiro, voz e vídeo.

Agregando os gigantes: uma nova estratégia multimodal

A ElevenLabs expandiu oficialmente sua plataforma “Studio” para incluir a geração de imagens e vídeos, marcando uma mudança decisiva em suas raízes como uma empresa de IA de áudio puro.

Em vez de tentar construir modelos de vídeo proprietários do zero para competir diretamente com empresas estabelecidas como Runway ou Luma, a empresa adotou uma estratégia agregadora. Essa abordagem posiciona o ElevenLabs como uma camada de interface unificada para gigantes terceirizados, simplificando o acesso a ferramentas fragmentadas.

Incluídos na integração estão alguns dos modelos mais cobiçados e restritos do setor. Os usuários agora podem acessar o Sora 2 Pro da OpenAI e o Veo 3.1 do Google, modelos que tiveram implantação pública limitada fora de programas de parceiros selecionados.

[conteúdo incorporado]

Essa mudança posiciona o ElevenLabs Studio como um concorrente direto dos editores não lineares (NLEs) tradicionais, como o Adobe Premiere, mas com um fluxo de trabalho generativo que combina script, voz, efeitos sonoros e visuais em uma linha do tempo.

Centralizando-os ferramentas, a empresa aborda o atrito da atual pilha criativa de IA. Normalmente, os criadores devem gerar ativos no Discord, em vários aplicativos da web e em software local antes de montá-los em outro lugar.

A plataforma agora oferece suporte a uma transição perfeita da solicitação de texto até a exportação final do vídeo em um único ambiente.

O pivô se alinha com a visão declarada do CEO Mati Staniszewski de construir uma “empresa geracional”, indo além dos riscos de comoditização dos serviços autônomos de conversão de texto em voz.

A expansão se baseia em um ano de rápido crescimento e diversificação de produtos para a empresa. Conforme coberto anteriormente pelo Winbuzzer, a ElevenLabs recentemente dobrou sua avaliação para US$ 6,6 bilhões após uma oferta pública de US$ 100 milhões para funcionários, sinalizando a forte confiança dos investidores em sua estratégia de plataforma mais ampla.

Sob o capô: integração Sora, Veo e Kling

Para os criadores, o principal apelo está nas capacidades específicas dos modelos integrados. OpenAI Sora 2 Pro é posicionado como o principal modelo de vídeo, oferecendo saída de alta fidelidade em resoluções de 720p ou 1080p.

Ele suporta durações fixas de 4, 8 ou 12 segundos e é otimizado para resultados cinematográficos e movimentos complexos. No entanto, esse desempenho tem um custo elevado de 12.000 créditos por geração e atualmente não tem suporte para referências de quadro final.

O Google Veo 3.1 oferece uma alternativa de nível profissional com foco no controle criativo. Ele oferece recursos como avisos negativos e controle de som dedicado para clipes de 4 a 8 segundos a um custo de 8.000 créditos. Este modelo é particularmente adequado para usuários que precisam de direção precisa sobre a saída visual, em vez de apenas fidelidade bruta.

O Kling 2.5 foi incluído por sua força em simulação física e dinâmica de fluidos. Ele gera vídeo 1080p em sequências de 5 ou 10 segundos por 3.500 créditos. Embora não tenha o controle de som dos modelos do Google, seu menor custo de crédito e recursos físicos específicos tornam-no uma opção viável para cenas dinâmicas.

Além do vídeo, a plataforma integra uma ampla gama de modelos de imagem. O Flux 1 Kontext Pro oferece controle de estilo avançado, enquanto o Google Nano Banana é otimizado para velocidade. O Seedream 4 está disponível para gerar sequências multi-shot consistentes, cruciais para projetos de narração de histórias.

Para garantir que esses ativos sejam viáveis ​​para exibições de alta resolução, os usuários podem aumentar as saídas em até 4x usando modelos Topaz Upscale. O pacote também inclui modelos de utilitários especializados, como Omnihuman 1.5 para animação de imagens estáticas e Veed LipSync para dublagem de vídeos existentes.

Essas ferramentas preenchem a lacuna entre a geração visual e a principal tecnologia de áudio da ElevenLabs, que inclui o modelo de fala para texto em tempo real Scribe v2 lançado recentemente.

Fluxo de trabalho do Studio e o custo de criação

A interface do Studio apresenta uma linha do tempo unificada onde os usuários podem fazer upload. um vídeo para gerar automaticamente um script ou escrever um script para gerar recursos visuais correspondentes.

Um recurso importante é o fluxo de trabalho “Correção de fala”, onde a edição da transcrição do texto regenera automaticamente o segmento de narração correspondente. Esse recurso simplifica significativamente o processo de revisão, eliminando a necessidade de regravar ou emendar o áudio manualmente.

O consumo de crédito é altamente variável, criando uma economia complexa para os usuários. Uma única geração de vídeo de alta qualidade usando Sora 2 Pro custa 12.000 créditos, significativamente mais do que tarefas padrão de áudio ou imagem.

O guia do produto observa que “a geração de vídeo está disponível apenas em planos pagos”, o que significa que os usuários gratuitos estão limitados aos recursos de geração de imagens.

As opções de exportação são robustas e oferecem suporte Downloads de MP4 com codecs H.264/H.265 e PNG para imagens. Como alternativa, os ativos podem ser reimportados diretamente para projetos do Studio para edição posterior. A plataforma também oferece suporte a fluxos de trabalho de”imagem para vídeo”, permitindo que os usuários usem imagens geradas como quadros iniciais para manter a consistência visual nos clipes de vídeo.

Essa estratégia de agregação permite que a ElevenLabs ofereça o melhor desempenho da classe em todas as modalidades sem arcar com os enormes custos de pesquisa e desenvolvimento do próprio treinamento de modelos básicos de vídeo.

Ela complementa seu portfólio existente, que inclui a ferramenta de geração Eleven Music e a API Voice Isolator, criando um ecossistema abrangente para mídia orientada por IA. produção.

Categories: IT Info