Нейросеть Google генерирует картинки по тексту

Google представила нейросеть Imagen в более высоком качестве, чем DALL-E 2.

Google представила "конкурента DALL-E 2" — собственную нейросеть Imagen, которая генерирует изображения по текстовому описанию. Её разработала команда исследовательского проекта Google Brain, специализирующаяся на изучении искусственного интеллекта на основе глубокого обучения.

Что она умеет?

Нейросеть распознаёт текст с использованием больших языковых моделей, после чего генерирует на основе полученных данных первое изображение размером 64х64 пикселей. Далее диффузионные модели поэтапно повышают разрешение полотна до 256х256 и 1024х1024 точек, параллельно с этим дорисовывая детали.

В Google изображения называются "беспрецедентным фотореализмом".

В чем отличие от DALL-E 2?

Компания предложила группе тестировщиков сравнить иллюстрации, созданные при помощи Imagen, DALL-E 2 и других моделей преобразования. Эксперимент показал, что люди чаще всего отдавали предпочтение изображениям, сгенерированным нейросетью Google.

Также нейросеть выдает изображения в более высоком качестве. Попробовать самостоятельно нейросеть от Google пока что нельзя — компания еще не опубликовала исходный код для проведения бета-тестирования по этическим причинам.

Ограниченный демо работает на сайте. Пользователи не могут сами вводить запросы, а способны только выбирать слова из предложенных. Проект пока еще находится в экспериментальной фазе.

Примеры работ по описанию