L’Intelligenza Artificiale di Google che trasforma quello che scrivi in immagini: ecco come funziona

Giulia Adonopoulos

26 Maggio 2022 - 12:42

condividi

Tu scrivi quello che vuoi e l’AI di Google lo trasforma in foto. Il risultato è straordinario: le immagini create a partire dal testo hanno un fotorealismo senza precedenti.

L'Intelligenza Artificiale di Google che trasforma quello che scrivi in immagini: ecco come funziona

Il team di Google Research ha sviluppato un sistema di Intelligenza Artificiale (AI) avanzata in grado di trasformare le frasi in immagini estremamente realistiche. Qualsiasi scena stravagante, da un cane che guida una bicicletta a Times Square con indosso occhiali da sole e cappellino di paglia, a un cobra gigante fatto di mais in un prato, può essere convertita da testo a immagine con il modello text-to-image presentato dal colosso di Mountain View.

Imagen, l’AI di Google che trasforma i testi in foto

Imagen è un modello di diffusione text-to-image, ossia un sistema di intelligenza artificiale che crea immagini a partire da un testo di input. Come spiegato da Google sul sito web di Imagen, questa AI è caratterizzata da un fotorealismo e profonda comprensione del linguaggio umano senza precedenti.

Il sistema capisce il linguaggio di grandi dimensioni, codifica il testo per la sintesi di immagini e genera immagini altamente fedeli.

Come funziona

Trasformare brevi descrizioni testuali in immagini non è un’idea nuova. Leader nel settore è Dall-E2 di OpenAI, il modello di text-to-image che ha dimostrato che il linguaggio può essere utilizzato per istruire una grande rete neurale per eseguire diverse attività di generazione di testo, ossia la capacità di creare immagini a partire da brevi testi e di modificarle con un semplice set di strumenti.

Sebbene impressionante, il fotorealismo delle immagini restituite da Dall-E non è ai livelli di quello di Google, e punta piuttosto a dimostrare la capacità di produrre immagini con diversi stili artistici.

Google ha superato la concorrenza in termini di precisione e fedeltà delle immagini. Il suo approccio è più orientato a rendere le immagini simili a foto reali, e infatti gli esempi pubblicati dalla società sul sito ufficiale sono molto più vicini a foto realistiche piuttosto che ai disegni e alle grafiche creati da OpenAI.

Imagen prende il testo, ad esempio Lo skyline di Toronto con il logo di Google e il cervello scritto nei fuochi d’artificio e produce il risultato.

Skyline di Toronto e Logo di Google con un cervello nei fuochi d'artificio Skyline di Toronto e Logo di Google con un cervello nei fuochi d’artificio Fonte: Google Imagen

Ecco alcuni esempi di immagini create dall’intelligenza artificiale di Google a partire da semplici descrizioni, pubblicate sul sito ufficiale di Imagen.

Qui di seguito la foto che riproduce la frase “Un volpino di Pomerania è seduto sul trono del re con indosso una corona. Due soldati tigre sono in piedi accanto al trono.”

Volpino di Pomerania re con soldati tigri ai lati Volpino di Pomerania re con soldati tigri ai lati Fonte: Google Imagen

Qui invece la foto creata utilizzando la descrizione “Un simpatico corgi vive in una casa fatta di sushi”.

Corgi in una casetta fatta di sushi Corgi in una casetta fatta di sushi Fonte: Google Imagen

Come trasformare testi in immagini con Google Imagen?

Al momento non si può fare. Google non ha rilasciato Imagen al pubblico. Il motivo è ben spiegato all’interno del paper white pubblicato da Big G: Imagen cerca su Internet le informazioni per imparare a creare le immagini dai testi. Poiché Internet può essere pieno di stereotipi e pregiudizi, questi potrebbero finire per essere presenti su Imagen. L’azienda teme che il programma possa essere utilizzato negativamente da alcuni utenti. “I metodi generativi possono essere sfruttati per scopi dannosi, tra cui molestie e diffusione di disinformazione, e sollevare molte preoccupazioni in merito all’esclusione sociale, culturale e ai pregiudizi”, si legge nel documento.

Google invita gli sviluppatori di intelligenza artificiale a diffidare dal rilasciare al pubblico modelli text-to-image senza prestare particolare attenzione ai dati su cui viene addestrata un’IA.

Sistemi come Imagen e simili mostrano la potenza del machine learning. In questo caso il modello di Google punta a eliminare la necessità di saper utilizzare programmi specializzati come Photoshop per creare immagini astratte. L’intelligenza artificiale (Assistente Google incluso) ricopre un ruolo cruciale nel raggiungimento dell’Ambient Computing, concetto caro a Google, che che parte dall’idea che le persone in futuro saranno in grado di utilizzare internet e i computer in modo intuitivo senza dover interagire fisicamente con i dispositivi e senza dover conoscere sistemi o codici specifici. Spiega Google:“ I vostri dispositivi scompaiono in secondo piano, lavorando insieme all’intelligenza artificiale e al software per fornirvi supporto durante la vostra giornata. Questo è ciò che chiamiamo Ambient Computing”.

Iscriviti a Money.it