Come trasformare foto in video con Gemini

29 Luglio 2025 - 11:26

La nuova funzione dell’intelligenza artificiale di Google è in grado di trasformare le immagini in video animati.

Seguici su

Google ha annunciato un’importante innovazione nel suo ecosistema di intelligenza artificiale: la nuova funzione di Gemini sarà capace di trasformare immagini statiche in video animati di breve durata.

Per fare ciò, l’AI sfrutta il modello Veo 3 della casa madre di Google DeepMind, una tecnologia capace di generare immagini in movimento e audio sincronizzato - come voci e suoni ambientali - partendo da una semplice fotografia. Si tratta di un passo significativo nell’evoluzione della creatività digitale assistita da AI, che apre così nuove possibilità narrative e di intrattenimento.

Come trasformare foto in video con Gemini

Gli utenti abbonati ai piani AI Pro e Ultra di Gemini possono accedere alla funzione tramite interfaccia web o mobile. Il piano Google AI Pro è disponibile a 21,99 euro al mese, mentre il piano Ultra è disponibile a un costo di 274,99 euro ogni tre mesi.

L’operazione è semplice: si carica una foto e si seleziona la “modalità video”, dove è possibile inserire anche un prompt testuale che guidi la generazione del contenuto audiovisivo. In seguito, sistema elabora un video in formato MP4, della durata di otto secondi e con risoluzione di 720p, che include un logo visibile e un SynthID, ovvero una tecnologia sviluppata da Google DeepMind per garantire l’autenticità e la tracciabilità dei file tramite l’identificazione dei contenuti generati dall’AI senza alterarne la qualità visiva o sonora.

Questa tecnologia si integra anche con Flow, un’applicazione AI per la creazione di video cinematici sempre sviluppata da Google che consente di animare le foto direttamente da Gemini senza dover passare per piattaforme esterne. In questo modo, Google punta a semplificare il flusso creativo e migliorare l’esperienza utente in modo da favorire l’adozione di questi strumenti anche ai meno esperti.

Come funziona la tecnologia Veo 3

Il modello Veo nasce nel 2024 e, attualmente, si è evoluto fino alla terza versione, che è stata presentata da Google a maggio del 2025. Veo 3 migliora in modo significativo la qualità del video generato grazie alla nuova capacità di generare audio coerente con la scena visiva.

Grazie all’uso di reti neurali multimodali, dei modelli di intelligenza artificiale capaci di comprendere e combinare diversi tipi di dati - come testo, immagini, audio e video - nello stesso sistema, Veo 3 è infatti capace di interpretare il contesto dell’immagine e aggiungere suoni ambientali o vocali plausibili, rendendo così i video più immersivi e realistici. Questa nuova tecnologia AI rappresenta un salto tecnologico che va oltre la semplice animazione e si avvicina sempre di più a una vera e propria narrazione audiovisiva automatizzata.

Vantaggi e limiti della nuova funzione video di Gemini

La nuova funzionalità di Gemini può offrire nuove opportunità in ambito creativo e commerciale, in particolar modo per content creator e social media manager, che possono sfruttarla per realizzare rapidamente video dinamici per campagne e progetti di visual storytelling. Anche artisti e illustratori possono dare vita ai propri lavori in poco tempo, mentre il mondo dell’informazione e dell’educazione può sfruttare le animazioni per rendere più facile e divertente l’apprendimento di concetti complessi.

Tuttavia, la funzione presenta alcune limitazioni importanti. La durata massima dei video realizzati con Gemini è fissata a otto secondi e la risoluzione è contenuta a 720p, un valore inadatto a usi professionali avanzati. Inoltre, la qualità del risultato dipende molto dalla precisione e chiarezza del prompt testuale. La presenza obbligatoria di loghi visibili e invisibili limita l’uso creativo, ma serve a Google per prevenire abusi e garantire la tracciabilità dei contenuti generati.