O Google lançou”Storybook”, um novo recurso em seu aplicativo Gemini que permite que os usuários criem histórias personalizadas e ilustradas usando prompts simples de texto. Lançado globalmente em 8 de maio, a ferramenta gera livros de 10 páginas com arte personalizada e narração de leitura em voz alta.

O recurso visa tornar a criação de conteúdo movida a IA mais acessível e pessoal. Pode até se inspirar em fotos pessoais ou desenhos infantis. No entanto, os testes iniciais destacam a falta de confiabilidade atual da tecnologia, com os usuários relatando resultados divertidamente bizarros.

Essa imprevisibilidade revela a diferença entre o marketing de IA polido e o desempenho do mundo real. Uma usuária inicial, Emma Roth of the Verge, observou:”Me deparei com uma ilustração que colocou um braço humano em um dos peixes”. capturando perfeitamente a produção muitas vezes surreal dos modelos gerativos de hoje .

de avisos para livros de fotos personalizados

storybook empowers para Torne-se autores instantâneos. Personalização. Além dos avisos de apenas texto, os usuários podem fazer upload de suas próprias fotos ou até o desenho de uma criança, pedindo à Gemini para dar vida ao conceito visual em uma nova narrativa. Isso transforma o recurso de um gerador simples em uma ferramenta para transformar memórias e criações pessoais em histórias únicas e compartilháveis. Os usuários podem solicitar visuais que imitam tudo, desde arte e quadrinhos de pixels até Claymation, Crochet e até livros para colorir. Essa flexibilidade está disponível em mais de 45 idiomas, tornando-a uma ferramenta criativa acessível globalmente.

O Google está incentivando ativamente uma variedade de casos de uso imaginativos. A empresa sugere instruções como criar uma história para explicar o sistema solar a uma criança de cinco anos ou ensinar uma lição sobre bondade, tornando o personagem principal o animal favorito de uma criança. Este livro de histórias não posiciona não como uma mera novidade, mas como um mecanismo de conteúdo prático e personalizado para famílias e educadores. A abordagem reflete outras atualizações criativas recentes da empresa, que se concentram na transformação da entrada estática do usuário em formatos dinâmicos de mídia. Esse padrão-do texto ao áudio ao vídeo-mostra um esforço estratégico claro para tornar as plataformas de ferramentas de IA do Google para sintetizar e compartilhar conhecimento, não apenas para recuperá-lo. peculiaridades da geração atual de imagem da IA. A tecnologia, para todo o seu poder, ainda luta com a coerência lógica, a permanência do objeto e a compreensão contextual. Isso leva ao que é comumente denominado”alucinações de IA”ou artefatos visuais, que não são apenas erros, mas sintomas da imaturidade fundamental da tecnologia. Verge expôs rapidamente essas tendências surreais. Uma história gerada apresentava um peixe que havia cultivado inexplicavelmente um braço humano. Outro fez uma página envolvendo molho de espaguete parecendo uma cena de crime de desenhos animados, enquanto um terceiro retratava uma mãe e um filho assistindo a uma TV que estava enfrentando o caminho errado. Esses não são erros sutis, mas falhas lógicas gritantes.

O problema é tão difundido que apareceu no próprio vídeo promocional do Google para o recurso. Em uma cena, um personagem é mostrado fazendo barulhos de”toque, toque, toque”enquanto segura uma chave, uma ação absurda que destaca a compreensão superficial da IA de como os objetos são usados no mundo real. Essas inconsistências demonstram que mesmo exemplos cuidadosamente selecionados nem sempre podem ocultar as falhas do sistema.

Esses problemas se estendem além da simples geração de objetos a falhas conceituais mais amplas. Os testadores observaram que os designs de caracteres geralmente mudavam inconsistentemente de uma página para a próxima. Além disso, quando solicitado a criar uma história baseada em um desenho carregado de um gato, a IA não conseguiu replicar fielmente a visão artística do usuário, produzindo sua própria interpretação genérica.

Essas inconsistências são um desafio bem documentado e em toda a indústria. Eles são o equivalente moderno dos primeiros modelos de IA que lutam para renderizar as mãos humanas corretamente, geralmente adicionando dedos extras. A dificuldade em gerar texto legível é outro obstáculo persistente, tão significativo que empresas como o Alibaba estão construindo modelos especializados apenas para resolvê-lo. A IA generativa é um sistema probabilístico, excepcionalmente qualificado em prever o próximo pixel ou palavra mais provável com base em vastos dados de treinamento. Não é um artista senciente com um verdadeiro entendimento da física, anatomia ou lógica narrativa, e suas criações continuarão refletindo esse vale estranho e estranho até que os modelos subjacentes evoluam ainda mais. Enquanto o Google busca um amplo apelo ao consumidor, os rivais estão eliminando nichos resolvendo problemas específicos e difíceis que há muito tempo atormentam a geração de imagens da IA. Isso tem como alvo um desejo crescente entre os criadores de saídas mais sutis e críveis. Essa capacidade é crucial para casos de uso profissional, como criar pôsteres ou materiais de marketing, um domínio onde a maioria dos modelos falha. A nova referência para o sucesso está mudando de simplesmente gerar uma imagem para gerar o tipo de imagem * direita * com precisão, confiabilidade e controle artístico. Os dados usados para treinar esses modelos poderosos são objeto de intenso debate e litígios de alto risco, criando um risco significativo para os desenvolvedores. Como o conselheiro geral da Disney afirmou sem rodeios,”a pirataria é a pirataria e o fato de ser feita por uma empresa de IA não a torna menos infrator”. Este caso pode definir um precedente para toda a indústria.

Esse atrito legal é composto pelo crescente ceticismo sobre como os modelos de IA são avaliados. A corrida pela supremacia de benchmark levou a acusações de”ensinar ao teste”. Como o estrategista da IA Nate Jones alertou: “No momento em que definimos o domínio da tabela de líderes como objetivo, corremos o risco de criar modelos que se destacam em exercícios triviais e linguados ao enfrentar a realidade.”

O fenômeno de lavar o agente” onde as empresas sobre o estado do automóvel Ele cria um ciclo de hype que pode obscurecer o progresso real e incremental. É poderoso e criativo, mas simultaneamente não confiável e propenso a erros cômicos. Ele mostra a imensa ambição do Google, lembrando aos usuários que a era dos contadores de histórias de IA sem falhas e verdadeiramente inteligentes ainda não chegou.

Categories: IT Info