OmniHuman-1

OmniHuman-1

La generazione di animazioni umane realistiche, guidata da input come l’audio, ha compiuto notevoli progressi negli ultimi anni. Tuttavia, i metodi esistenti faticano a scalare come i grandi modelli di generazione video generali, limitandone il potenziale nelle applicazioni reali. In questo articolo, presentiamo OmniHuman, un framework basato su Diffusion Transformer (DiT) che supera queste limitazioni, sfruttando dati su larga scala e condizioni di allenamento miste.


Le Sfide della Scalabilità nei Modelli di Animazione Umana

I modelli di animazione umana, sia quelli guidati dalla posa che quelli guidati dall’audio, sono spesso addestrati su dataset altamente filtrati per semplificare il processo di apprendimento. Questa pratica, sebbene utile per la stabilità dell’addestramento, limita la generalizzazione del modello e spreca una grande quantità di dati che contengono preziose informazioni sui pattern di movimento. Ad esempio, i modelli condizionati dall’audio si concentrano principalmente sulle espressioni facciali, mentre i modelli condizionati dalla posa sono limitati a immagini frontali con sfondi statici.


La Soluzione di OmniHuman: Addestramento con Condizioni Miste

OmniHuman affronta queste sfide attraverso una strategia di addestramento con condizioni miste (testo, audio e posa). Questo approccio permette di:

  • Utilizzare dati altrimenti scartati: Dati non utilizzabili per modelli a singola condizione (audio o posa) possono essere sfruttati in task con condizioni più deboli come il testo.
  • Sfruttare la complementarità delle condizioni: Le diverse condizioni si completano a vicenda; per esempio, l’audio da solo non controlla le pose del corpo, ma la posa può fornire una guida aggiuntiva.

Principi di Addestramento di OmniHuman

L’addestramento di OmniHuman si basa su due principi fondamentali:

  1. Le task con condizioni più forti possono sfruttare le task con condizioni più deboli e i loro dati per scalare l’addestramento del modello.
  2. Più forte è la condizione, minore è il rapporto di addestramento che dovrebbe essere usato. Questo perché le condizioni più forti tendono ad essere apprese più facilmente.

Questi principi permettono ad OmniHuman di imparare pattern di movimento da una vasta gamma di dati e di gestire input diversi.


Architettura e Funzionamento di OmniHuman

OmniHuman è costruito sul modello DiT, un’architettura avanzata per la generazione video. Il modello:

  • Utilizza un modello pre-addestrato su coppie testo-video per la generazione di video e immagini da testo.
  • Integra audio e posa attraverso l’uso di caratteristiche estratte da modelli come wav2vec e heatmaps della posa.
  • Utilizza un approccio unico per la gestione dell’immagine di riferimento, riutilizzando la backbone del DiT per codificarla, evitando di aggiungere parametri.
  • Impiega un 3DVAE causale per la proiezione dei video in uno spazio latente e utilizza flow matching come obiettivo di addestramento.

L’addestramento è suddiviso in tre fasi, introducendo progressivamente le modalità di testo, audio e posa, bilanciando i rapporti di addestramento in base alla loro correlazione con il movimento. Durante l’inferenza, OmniHuman supporta diverse combinazioni di input, gestendo efficacemente anche lunghe sequenze video.


Risultati Sperimentali e Confronto con i Metodi Esistenti

OmniHuman è stato valutato utilizzando diversi dataset per l’animazione di ritratti e del corpo. I risultati mostrano che OmniHuman:

  • Supera i modelli esistenti in termini di qualità visiva, sincronizzazione labiale e accuratezza del movimento, ottenendo i migliori risultati in diverse metriche.
  • Supporta varie proporzioni del corpo e formati di input con un singolo modello.
  • Migliora significativamente la generazione dei gesti, una sfida per i precedenti modelli end-to-end.

Analisi delle Scelte di Addestramento

Gli studi sull’addestramento di OmniHuman evidenziano l’importanza dei principi di addestramento proposti:

  • Rapporti di addestramento dell’audio: Un mix di dati specifici per l’audio e dati per condizioni più deboli (testo) si è dimostrato ottimale, con un rapporto del 50% che produce risultati migliori rispetto a un addestramento esclusivo sui dati audio o di testo.
  • Rapporti di addestramento della posa: L’addestramento con una percentuale di posa troppo bassa genera gesti troppo intensi, mentre un rapporto troppo alto rende i risultati troppo statici. Un rapporto del 50% si è rivelato il più efficace.
  • Rapporti di addestramento dell’immagine di riferimento: Un rapporto di addestramento più alto con l’immagine di riferimento, rispetto all’audio e al testo, ha portato a una migliore corrispondenza della qualità e dei dettagli dell’immagine originale nel video generato.

OmniHuman rappresenta un importante passo avanti nella generazione di video di animazione umana. Attraverso una strategia di addestramento con condizioni miste e l’uso di dati su larga scala, OmniHuman supera le limitazioni dei metodi esistenti, producendo video altamente realistici e versatili. La sua capacità di gestire input diversi e di generare animazioni di alta qualità lo rende uno strumento promettente per una vasta gamma di applicazioni.