StabilityAI rilascia Stable Diffusion 3 Medium

Stability AI ha recentemente rilasciato la versione di Stable Diffusion 3 denominata Medium, un modello più avanzato e sofisticato per la generazione di immagini da testo. Questo nuovo modello rappresenta un significativo passo avanti rispetto alle versioni precedenti, offrendo prestazioni migliorate nella gestione di prompt complessi, qualità delle immagini e capacità di riconoscimento del testo.

Caratteristiche Tecniche e Innovazioni

Stable Diffusion 3 utilizza un’architettura denominata Multimodal Diffusion Transformer (MMDiT), che sfrutta set di pesi separati per rappresentazioni testuali e visive, migliorando così la comprensione del testo e le capacità di spelling rispetto alle versioni precedenti​. Questa nuova architettura è particolarmente efficace nel seguire fedelmente i prompt complessi, superando modelli concorrenti come DALL·E 3 e Midjourney v6 nelle valutazioni umane di qualità estetica, aderenza ai prompt e tipografia​.

Stable Diffusion 3 impiega anche la tecnologia di flusso rettificato (Rectified Flow), che facilita percorsi di inferenza più diretti e campionamenti più efficienti, migliorando la qualità finale delle immagini. Inoltre, utilizza tre encoder di testo: CLIP L/14, OpenCLIP bigG/14 e T5-v1.1-XXL, che contribuiscono a una comprensione del testo più precisa e a una migliore integrazione del testo nelle immagini​.

Condividi
Archivio Blog