Google ha lanciato”Storybook”, una nuova funzionalità nella sua app Gemini che consente agli utenti di creare storie personalizzate e illustrate utilizzando semplici istruzioni di testo. Rilasciato a livello globale l’8 maggio, lo strumento genera libri di 10 pagine con arte personalizzata e narrazione ad alta voce.

La funzione mira a rendere la creazione di contenuti basata sull’intelligenza artificiale più accessibile e personale. Può anche trarre ispirazione da foto personali o disegni dei bambini. Tuttavia, i primi test evidenziano l’attuale inaffidabilità della tecnologia, con gli utenti che segnalano risultati in modo divertente.

Questa imprevedibilità rivela il divario tra il marketing di intelligenza artificiale lucido e le prestazioni del mondo reale. Un primo utente, Emma Roth di The Verge, ha osservato:”Mi sono imbattuto in un’illustrazione che ha messo un braccio umano su uno dei pesci”. catturare perfettamente l’output spesso-asurreal dei modelli generativi di oggi .

dai suggerimenti ai libri illustrati personalizzati

libro di storie consente agli utenti di diventa autori istantanei. Il processo è progettato per la semplicità: un utente descrive qualsiasi storia che può immaginare e il vero e proprio strict. Personalizzazione profonda. Oltre alle semplici richieste di testo, gli utenti possono caricare le proprie foto o persino il disegno di un bambino, chiedendo a Gemini di dare vita al concetto visivo in una nuova narrazione. Ciò trasforma la funzione da un semplice generatore in uno strumento per trasformare ricordi personali e creazioni in storie uniche e condivisibili.

[contenuto incorporato]

Per migliorare ulteriormente il controllo creativo, la piattaforma supporta una vasta gamma di stili artistici. Gli utenti possono richiedere elementi visivi che imitano tutto, dall’arte dei pixel e ai fumetti alla argilla, all’uncinetto e persino ai libri da colorare. Questa flessibilità è disponibile su oltre 45 lingue, rendendolo uno strumento creativo accessibile a livello globale.

Google sta incoraggiando attivamente una gamma di casi d’uso fantasiosi. La compagnia suggerisce suggerimenti come creare una storia per spiegare il sistema solare a un bambino di cinque anni o insegnare una lezione sulla gentilezza rendendo il personaggio principale un animale preferito da bambino. Questo posiziona il libro di fiabe non come una semplice novità ma come un motore di contenuti pratico e personalizzato per famiglie ed educatori.

Questo lancio è una parte fondamentale della più ampia strategia di Google per incorporare profondamente l’intelligenza artificiale in tutto il suo ecosistema di prodotti, andando oltre le semplici funzioni di chat. L’approccio rispecchia altri recenti aggiornamenti creativi dell’azienda, che si concentrano sulla trasformazione degli input di utenti statici in formati di media dinamici e coinvolgenti.

Ad esempio, l’assistente di ricerca NoteBookLM dell’azienda si è evoluto costantemente, aggiungendo recentemente”panoramiche video”che trasformano le note di ricerca in presentazioni narrate. Questo modello-dal testo da audio in video-mostra una chiara spinta strategica per rendere le piattaforme di AI Tools di Google per sintetizzare e condividere le conoscenze, non solo per recuperarla.

dell’attuale generazione di immagini AI. La tecnologia, per tutto il suo potere, lotta ancora con coerenza logica, permanenza degli oggetti e comprensione contestuale. Questo porta a ciò che sono comunemente definiti”AI Halcinings”o artefatti visivi, che non sono semplicemente bug ma sintomi dell’immaturità fondamentale della tecnologia.

a ha rapidamente esposto queste tendenze surreali. Una storia generata presentava un pesce che aveva inspiegabilmente coltivato un braccio umano. Un altro ha fatto sembrare una pagina che coinvolge la salsa di spaghetti come una scena del crimine dei cartoni animati, mentre un terzo raffigurava una madre e un figlio che guardavano una TV che si trovava di fronte al modo sbagliato. Questi non sono errori sottili ma evidenti fallimenti logici.

Il problema è così pervasivo che è apparso anche nel video promozionale di Google per la funzione. In una scena, un personaggio viene mostrato facendo”tocca, tocca, tocca”rumori mentre tiene una chiave, un’azione senza senso che evidenzia la comprensione superficiale dell’intelligenza artificiale di come gli oggetti vengono utilizzati nel mondo reale. Queste incoerenze dimostrano che anche esempi attentamente curati non possono sempre nascondere i difetti del sistema.

Questi problemi si estendono oltre la semplice generazione di oggetti a fallimenti concettuali più ampi. I tester hanno notato che i disegni dei caratteri sono cambiati spesso in modo incoerente da una pagina all’altra. Inoltre, quando è stato chiesto di creare una storia basata su un disegno caricato di un gatto, l’IA non è riuscita a replicare fedelmente la visione artistica dell’utente, producendo invece la propria interpretazione generica.

Tali incoerenze sono una sfida ben documentata e a livello di settore. Sono l’equivalente moderno dei primi modelli di intelligenza artificiale che lottano per rendere correttamente le mani umane, aggiungendo spesso dita extra. La difficoltà nel generare testo leggibile è un altro ostacolo persistente, così significativo che le aziende come Alibaba stanno costruendo modelli specializzati solo per risolverlo.

Questi risultati divertenti sono un promemoria pubblica cruciale di come funziona effettivamente questa tecnologia. L’intelligenza artificiale generativa è un sistema probabilistico, eccezionalmente qualificato nel prevedere il prossimo pixel o una parola più probabile in base a vasti dati di allenamento. Non è un artista senziente con una vera comprensione della fisica, dell’anatomia o della logica narrativa, e le sue creazioni continueranno a riflettere quella strana e misteriosa valle fino a quando i modelli sottostanti si evolvono ulteriormente.

un campo affollato di storyteller AI

il libro di storie di Google impegna a un market rapidamente competitivo. Mentre Google mira a un ampio appello al consumo, i rivali stanno ritagliando le nicchie risolvendo problemi specifici e difficili che hanno una lunga generazione di immagini di AI.

Ad esempio, il flusso di Black Forest Labs.1 Il modello Krea è progettato specificamente per ottenere un autentico fotorealismo e combattere il”aspetto generico”. Ciò si rivolge a un crescente desiderio tra i creatori per output più sottili e credibili.

Allo stesso modo, il modello di immagine Qwen di Alibaba affronta un altro grande ostacolo: rendendo accuratamente il testo leggibile all’interno delle immagini. Questa capacità è cruciale per casi d’uso professionale come la creazione di poster o materiali di marketing, un dominio in cui la maggior parte dei modelli fallisce.

Questa tendenza del settore verso la specializzazione mette pressione su strumenti per scopi generali come il libro di fiabe. Il nuovo punto di riferimento per il successo si sta spostando semplicemente dalla generazione di un’immagine alla generazione del tipo * giusto * di immagine con precisione, affidabilità e controllo artistico.

hype, allucinazioni e copyright mutua

L’intero campo di Ai generativo funziona sotto una nuvola di incertezza legale ed etica. I dati utilizzati per addestrare questi potenti modelli sono oggetto di intensi dibattiti e contenzioso ad alto contenuto, creando un rischio significativo per gli sviluppatori.

Una causa storica presentata da Disney e Universal contro Midjourney accusa la compagnia di addestrare la sua AI su personaggi protetti da copyright senza permesso. Come ha affermato senza mezzi termini il consulente generale della Disney,”La pirateria è la pirateria e il fatto che sia fatto da una società di A.I. non lo rende meno violato”. Questo caso potrebbe costituire un precedente per l’intero settore.

Questo attrito legale è aggravato dalla crescita dello scetticismo sul modo in cui vengono valutati i modelli di intelligenza artificiale. La gara per la supremazia di riferimento ha portato ad accuse di”insegnamento al test”. Come ha avvertito Nate Jones, stratega dell’IA Nate Jones:”Nel momento in cui abbiamo fissato il dominio della classifica come obiettivo, rischiamo di creare modelli che eccellono negli esercizi banali e in fila di fronte alla realtà.”

Il fenomeno “lavaggio degli agenti” dove le aziende sopravvivono le capacità autonome delle loro applicazioni, paesaggi di paesaggio. Crea un ciclo di clamore in grado di oscurare i progressi reali e incrementali. È potente e creativo, ma contemporaneamente inaffidabile e incline a errori comici. Mostra l’immensa ambizione di Google ricordando agli utenti che l’età di narratori di AI impeccabili e davvero intelligenti non è ancora arrivato.

Categories: IT Info