Google presenta Gemini Omni, il nuovo modello di IA che può renderci tutti degli esperti di effetti speciali

Google ha presentato Gemini Omni, il nuovo modello di intelligenza artificiale capace di creare e modificare video a partire da qualsiasi tipo di input. È sufficiente inserire nel prompt un breve testo, un’immagine, un filmato o una traccia audio perché l’IA generi un contenuto costruito attorno alle richieste dell’utente.

Al Google I/O 2026, l'evento annuale dedicato agli sviluppatori, l'azienda di Mountain View ha presentato Gemini Omni, una nuova famiglia di modelli di intelligenza artificiale che sembra in grado di renderci tutti degli esperti di effetti speciali. La stessa azienda ha infatti presentato Omni come un modello capace di fare tutto, "partendo da qualsiasi input", sia testuale che visivo. Almeno per ora, però, il potenziale più evidente sembra concentrarsi soprattutto nella generazione e nella modifica di contenuti video. Superando il tradizionale concetto di chatbot, Gemini Omni può infatti combinare testo, immagini, tracce vocali e filmati per produrre nuovi video coerenti, modificabili attraverso semplici istruzioni in linguaggio naturale e quindi accessibili anche a chi non possiede competenze tecniche di montaggio o post-produzione.

Il primo modello disponibile è Gemini Omni Flash, da oggi già distribuito all'interno dell'app Gemini, di Google Flow e che progressivamente arriverà anche su YouTube Shorts. Nei prossimi mesi è probabile il rilascio anche della versione Pro che per il momento Google ha scelto di non rendere ancora disponibile al grande pubblico.

Le novità: editing conversazionale e capacità narrativa

Uno degli aspetti più rilevanti di Gemini Omni riguarda la modifica dei video tramite una semplice conversazione tra l'utente e l'IA generativa. In pratica, l'utente può intervenire progressivamente sulla stessa scena chiedendo al modello di cambiare l'ambientazione, gli oggetti, le inquadrature o lo stile visivo senza dover ogni volta ricominciare da zero. Il sistema, ha spiegato Google, è infatti in grado di mantenere la memoria degli elementi già presenti, preservando così la coerenza narrativa del video che vogliamo ottenere. È un po' ciò che accade quando un regista si rivolge alle maestranze e agli addetti di fotografia e montaggio per sistemare ogni dettaglio della scena che si sta girando. La differenza è però che l'intero processo avviene in pochi minuti e nello spazio ristretto di uno schermo.

Una IA multimodale alla ricerca del realismo

Nella presentazione del modello Google ha definito Omni come un modello "nativamente multimodale", perché non si limita a interpretare diversi formati, ma li combina in un unico processo creativo. A differenza dei tradizionali strumenti text-to-video, il sistema può infatti utilizzare simultaneamente video, immagini, audio e testo per generare nuovi contenuti. Se per esempio volessimo creare una scena con lo stile espressionista di Munch e una colonna sonora dalle atmosfere simili a quelle evocate da uno strumentale Jazz, basterebbe inserire nel prompt i caricamenti di questi riferimenti (un quadro di Munch e una traccia audio con il genere desiderato) per ottenere un video del tutto nuovo contenente tutti gli elementi richiesti.

Un altro tema centrale sottolineato da Google è il realismo e la credibilità del risultato finale. Secondo la grande "G", rispetto ai precedenti modelli Omni possiede una comprensione molto più accurata di fenomeni fisici come gravità, energia cinetica e dinamica dei fluidi, con l'obiettivo di produrre scene molto più realistiche. Lo strumento sarebbe inoltre in grado di utilizzare il contesto culturale e storico per creare contenuti più coerenti rispetto ai prompt ricevuti.

Avatar digitali e la filigrana anti-deepfake

Tra le funzioni annunciate c'è anche la possibilità di creare avatar digitali personalizzati, capaci di riprodurre non solo l'immagine, ma anche la voce e le espressioni dell'utente. Google ha però spiegato che questa tecnologia verrà distribuita gradualmente, con particolare attenzione agli aspetti legati alla sicurezza e alla manipolazione di voce e immagine.

Simili potenzialità hanno immancabilmente destato qualche perplessità da parte di chi teme un nuovo boom di deepfake e contenuti artefatti per fare disinformazione. Per rassicurare su questo punto Google ha però reso noto che tutti i contenuti generati da Omni includeranno la filigrana SynthID, il sistema sviluppato da Google per identificare immagini e video generati con l'intelligenza artificiale.

Al momento Gemini Omni Flash è disponibile per gli utenti dei piani Google AI Plus, Pro e Ultra, mentre alcune funzioni verranno integrate gratuitamente anche in YouTube Shorts e nell'app YouTube Create. Nei prossimi mesi Google prevede inoltre di ampliare le capacità del sistema introducendo nuovi formati di output, comprese immagini e audio generati direttamente dal modello.

Continua a leggere su Fanpage.it