EMO: Emote Portrait Alive

Un framework espressivo per la generazione di ritratti-video basato su audio.

Inserendo una singola immagine di riferimento e l’audio vocale, ad es. parlando e cantando, si possono generare video con espressioni facciali espressive e varie pose della testa, di qualsiasi durata.


Panoramica del metodo

Il metodo comprende principalmente due fasi. Nella fase iniziale, nota come Frames Encoding, ReferenceNet viene impiegato per estrarre le caratteristiche sia dall’immagine di riferimento che dai fotogrammi in movimento. Successivamente, nel corso della fase di processo di diffusione, un codificatore audio pre-addestrato elabora l’incorporamento dell’audio.

La maschera della regione facciale √® integrata con rumore multi-frame per guidare la generazione di immagini facciali. A questo segue l’utilizzo del Backbone Network per agevolare l’operazione di denoising. All’interno del Backbone Network, vengono implementati due meccanismi di attenzione: l’attenzione di riferimento e l’attenzione audio.

Questi meccanismi risultano fondamentali, rispettivamente, per preservare l’identit√† del personaggio e per modulare i suoi movimenti. Inoltre, sono impiegati moduli temporali per manipolare la dimensione temporale e regolare la velocit√† del movimento.

Video dimostrativo

Non ci sono ancora informazioni sul rilascio.

Condividi
Archivio Blog