I modelli di diffusione sono diventati un approccio prevalente per generare immagini ad alta risoluzione. Tuttavia, la creazione diretta di immagini ad alta risoluzione da modelli di diffusione pre-addestrati comporta una significativa replicazione degli oggetti e un aumento considerevole dei tempi di generazione.
Per affrontare queste problematiche, il team proponente presenta un framework innovativo ad alta risoluzione, denominato HiDiffusion, che non richiede tuning. HiDiffusion include in particolare il Resolution-Aware U-Net (RAU-Net), che adatta dinamicamente le dimensioni della mappa delle caratteristiche per risolvere il problema della replicazione degli oggetti, e fa uso del Modified Shifted Window Multi-head Self-Attention (MSW-MSA), che sfrutta un’attenzione ottimizzata della finestra per ridurre il carico computazionale.
HiDiffusion può essere incorporato in vari modelli di diffusione pre-addestrati per aumentare le risoluzioni delle immagini generate fino a 4096×4096, con un incremento nella velocità di inferenza da 1,5 a 6 volte rispetto ai metodi precedenti. Gli esperimenti dimostrano che questo approccio affronta con successo la replicazione degli oggetti e la computazione pesante, raggiungendo lo stato dell’arte nei compiti di sintesi di immagini ad alta risoluzione.
Questo insieme di 4 nodi personalizzati consente l’utilizzo di HiDiffusion all’interno dell’ambiente di lavoro ComfyUI. I settaggi sono minimizzati per consentire un utilizzo sperimentale dei risultati, con l’intenzione di sviluppare in futuro nodi più specifici da integrare in workflow più complessi e completi.
Alcune immagini di esempio generate con HiDiffusion SDXL