In den meisten ursprünglichen Wochen hat der DALL-E 2 AI-Bildgenerator auf Twitter Wellen geschlagen. Google hat heute Abend sein als „Imagen“ bekanntes Wartungsmodell veröffentlicht, das ein hohes Maß an Sprachverarbeitung mit einem „beispiellosen Grad an Fotorealismus“ verbindet.
Laut Jeff Dean, dem Leiter von Google AI , KI-Systeme wie diese „können die gemeinsame Kreativität von Mensch und Computer freisetzen“, und Imagen ist „ein Weg verfolgen.” Der Fortschritt, den Google Look at Mind Personnel gegenüber seinem Text-zu-Bild-Verbreitungsmodell gemacht hat, ist der Grad an Realismus. Hin und wieder ist DALL-E 2 mit seiner Leistung meist realistisch, aber ein tieferes Stolpern würde möglicherweise auf die gemachten kreativen Lizenzen hinweisen. (Weitere Informationen finden Sie in diesem Erklärvideo.)
Imagen baut auf der Energie ansprechender Transformer-Sprachmodelle bei der Ausarbeitung von Text auf und hängt von der Stärke ab von Diffusionsmodellen im High-Fidelity-Image-Zeitalter. Unsere wichtigste Entdeckung ist, dass generische gefällige Sprachmodelle (z. B. T5), die auf texthandlichsten Korpora vortrainiert sind, überraschend effizient bei der Codierung von Text für die Bildsynthese sind: Die Vergrößerung der Dimensionen des Sprachmannequins in Imagen erhöht sowohl die Mustertreue als auch den Bildtext