Google lancia Gemini Omni – il modello video “tutto – in – uno” che può deepfakare chiunque

Google lancia Gemini Omni – il modello video “tutto – in – uno” che può deepfakare chiunque

Google sta testando un nuovo modello di intelligenza artificiale, Gemini Omni, capace di trasformare un semplice selfie in video ultra realistici, al limite del deepfake. Dalle vacanze finte davanti alla Torre Eiffel a peluche che vanno in crociera, l’esperienza raccontata da una giornalista di The Verge mostra quanto questo strumento sia potente… e inquietante.

Cos’è Gemini Omni e cosa fa di diverso rispetto a prima

Omni è la nuova famiglia di modelli generativi di Google pensata, nelle intenzioni dell’azienda, per gestire “da qualsiasi input a qualsiasi output”: foto, video, testo, audio. Nella pratica, al momento, l’utente può usarlo soprattutto per generare e modificare video all’interno della piattaforma AI di Google chiamata Flow.

Il primo modello disponibile è Omni Flash, che prende il posto (ma non elimina) il precedente Veo. È possibile continuare a usare Veo, ma secondo Google Omni:

  • gestisce meglio la coerenza dei personaggi all’interno della clip
  • integra più “conoscenza del mondo reale” nelle scene
  • consente di caricare un video di partenza e guidare l’output con un prompt testuale

Nei test di The Verge, un peluche (Buddy, un cerbiatto di stoffa) viene trasformato in protagonista di mini film: prepara la valigia, sale su una nave da crociera, va in vacanza ai tropici. Risultato: alcune clip sono nettamente più credibili rispetto a cinque mesi fa con Veo, ma restano errori improvvisi, cambi di posizione del personaggio e oggetti che si trasformano da una scena all’altra.

Video realistici… ma con glitch inquietanti e costi non banali

Un esempio citato nella prova: l’utente chiede a Omni un montaggio “carino e giocoso” in cui Buddy prepara la valigia, sale su una nave da crociera e porta con sé un oggetto buffo che torna utile più tardi. L’AI decide che l’oggetto è un barattolo di miele, che il peluche usa come se fosse crema solare. L’idea narrativa funziona, ma il barattolo cambia forma e contenuto più volte nella stessa clip, passando da vasetto a bottiglia trasparente, poi di nuovo a flacone di miele.

Anche le modifiche via testo (ad esempio “enfatizza le espressioni del viso”) funzionano meglio rispetto a Veo 3, ma non sono ancora affidabili: Buddy a volte si ritrova con corna che non dovrebbe avere, e quando l’utente chiede di rimuoverle in una scena, il modello le toglie lì… e le aggiunge in tutte le altre.

In più, non è gratis sperimentare. Il sistema funziona a crediti:

  • ogni generazione di video costa tra 15 e 40 crediti, a seconda della lunghezza e del materiale di partenza
  • un giro di modifiche costa 40 crediti

Con il piano da 20 dollari al mese (1.000 crediti), dopo una ventina di clip e qualche modifica la giornalista si ritrova con soli 145 crediti. Per chi ha un’idea precisa in testa, il continuo tentativo–errore può diventare rapidamente costoso.

Deepfake personali: quanto è facile farsi “clonare” da Omni

La parte più impressionante del test arriva quando la giornalista smette di usare il peluche e prova a deepfakare sé stessa. Parte da un semplice selfie video con espressione neutra e chiede a Omni:

  • un video in cui mangia un piatto di spaghetti
  • un altro seduta al posto finestrino in aereo
  • un altro ancora davanti alla Torre Eiffel, mentre addenta una baguette

Il risultato? Video “abbastanza buoni da ingannare i social”, con pochi indizi evidenti di essere falsi: un rumore di posate un po’ artificiale, una passeggera duplicata sullo sfondo dell’aereo, una leggera sensazione di “stranezza” generale.

Il test più rivelatore: mostra al marito il video in cui mangia la pasta, senza dirgli cosa è stato generato dall’AI. Lui sa che sta provando uno strumento di video generazione, ma crede davvero che lei stia mangiando davanti alla telecamera, e l’unica cosa che lo fa dubitare è la ciotola “sconosciuta”. Per il resto, il gesto del mangiare è totalmente convincente, al punto da ingannare una persona che la vede dal vivo ogni giorno da dieci anni.

Alcuni video davanti alla Torre Eiffel risultano un po’ cartoon, ma almeno una versione è così credibile che serve riguardarla più volte per accorgersi che non è reale. Un dettaglio come i capelli raccolti in coda – cosa che la giornalista non fa – è il principale indizio per lei, ma difficilmente lo sarebbe per uno sconosciuto.

La sensazione finale è di trovarsi pienamente nella uncanny valley: non siamo alla “singolarità” promessa da certi marketing, ma i video sono abbastanza realistici da creare disagio.

Come usare (con prudenza) questi strumenti di AI video

Per chi in Italia è curioso di sperimentare strumenti simili, l’esperienza raccontata da The Verge suggerisce alcune cautele:

  • Aspettarsi errori visivi e incoerenze: oggetti che cambiano forma, volti che si deformano, dettagli che “saltano” tra una scena e l’altra.
  • Valutare i costi prima di lanciarsi in un progetto lungo: la logica a crediti può rendere oneroso rifare e correggere continuamente.
  • Essere consapevoli del potere dei deepfake: se un partner o un amico stretto può essere ingannato da un video generato, è facile immaginare l’impatto su chi ci conosce solo online.
  • Limitare l’uso di volti reali in contesti ambigui, soprattutto quando potrebbero essere fraintesi o riutilizzati senza consenso.

Omni, per ora, è un assaggio di quello che potrebbe diventare il video generato dall’AI nei prossimi anni: non perfetto, ancora pieno di glitch, ma già abbastanza credibile da costringerci a rivedere quanto ci fidiamo di ciò che vediamo sullo schermo.

Ostia News è un sito indipendente che seleziona notizie, aggiornamenti e contenuti utili dal web. L’obiettivo è offrire una lettura semplice e veloce su attualità, casa, vita quotidiana e territorio. Le rubriche di consigli pratici sono curate dalla redazione e dagli autori del sito.

Commento all'articolo