Попробовал нейросети Kandinsky и Шедеврум — ничего не получилось. Как сделать круто

Георгий Лямин — 7 апреля 2023, 12:45

Сбер обновил свою нейросетку для генерации изображений по текстовому описанию Kandinsky до версии 2.1, а Яндекс выпустил бета-версию приложения Шедеврум. Бегло попробовал и остался недоволен, а потом во всем разобрался и получил вполне достойный результат. Расскажу, как от этих нейросетей получить желаемые изображения.

Подписаться на iGuides в Telegram, чтобы узнать обо всем первым — t.me/iguides

Начнем с Шедеврума от Яндекса, как выше упоминалось, эта нейросеть для создания изображений по текстовому описанию сейчас находится в стадии бета-тестирования и доступна в виде приложений для iOS и Android. Рекомендую, как минимум, пока не тратить на нее время, а сразу переходить к Kandinsky. Впрочем, несколько замечаний все-таки оставлю.

В Шедеврум слишком много ограничений — Яндекс, судя по всему, перестраховывается, поэтому вы не сможете создать изображения с реальными людьми. Также есть очень много ограничений на вполне безобидные сцены. Из-за этого желание пользоваться нейросетью отпадает — пусть пока её потренируют другие, менее привередливые пользователи. Также качество изображений оставляет желать лучшего — смотри сравнения генерации по одному и тому же промту в Kandinsky и Шедеврум.

^{Шедеврум}

Ах-да, на всякий случай стоит упомянуть, что здесь и далее промт — это текстовой запрос к нейросетям, по которому генерируется изображение.

^Kandinsky

Тем не менее стоит отметить отличную реализацию Шедеврум в форме приложения. Оно работает очень стабильно и у него приятный интерфейс. Разработчики буквально сделали некое подобие социальной сети — все создаваемые изображения публикуются в общую ленту, там пользователи их могут оценить лайками и просмотреть используемые промты.

Kandinsky от Сбера доступен в вебе и в виде бота для Telegram. В вебе возможностей побольше, но поскольку я занимаюсь созданием изображений по фану, «кручу» его на мобиле в телеге.

Первые попытки взаимодействия с Kandinsky оставляли желать лучшего. Потом я решил опробовать привычные промты для Midjourney и Stable Diffusion. Результат порадовал.

^Kandinsky

Как составить правильный промт для получения нужного результата

Абстрактные запросы могут срабатывать, но зачастую результат получается непредсказуемым. Пример ниже: «Дядя едет на динозавре по млечному пути». Генерация в таком формате довольно быстро надоедает и хочется получать наиболее точные и предсказуемые результаты. Как составить для этого промт?

Нейросети любят конкретику. Чем точнее будет ваш промт, тем более предсказуемым получится результат. Я использую для составления запросов довольно распространенную и стандартную схему:

Описание основного объекта
Описание локации и сцены
Параметры освещения и стиль визуализации
Технические параметры

^Kandinsky

Вариации по промту: skull nousr robot, armored, stealth, character design, highly detailed, intricate details, digital 3d, hard surface, real-time, vfx, trending on artstation, sharp focus, uhd, hdr.

Например, нам нужно получить изображение девушки с темными волосами на фоне Парижа, а стиль должен быть на уровне профессиональной съемки. Описываем всю это сцену на английском языке по предложенной выше схеме, получится: «Portrait of a brunette girl with sunglasses in the background of Paris, dynamic pose, Cinematic, Moody Lighting, Shot on 50mm lens, Depth of Field, Shutter Speed 1/1000, F/22, Super-Resolution, super detailed, photography». Давайте разберем эту билеберду на схему:

Описание основного объекта, локации и сцены: Portrait of a brunette girl with sunglasses in the background of Paris
Параметры освещения и стиль визуализации: dynamic pose, Cinematic, Moody Lighting
Технические параметры: Shot on 50mm lens, Depth of Field, Shutter Speed 1/1000, F/22, Super-Resolution, super detailed, photography

Для сравнения тот же промт в Шедеврум:

Для создания промта на английском я иногда использую переводчик DeepL — просто ввожу описание сцены на русском, а затем копирую перевод и добавляю технические параметры. Можно поэкспериментировать с промтами на русском, но на английском у меня получаются наиболее желаемые результаты.

Также в генерации изображения можно воспользоваться уже готовыми промтами других пользователей нейросетей. Так можно поэкспериментировать, заменяя их параметры на свои — результаты получаются интересными.

Что еще важно знать

Быстрее всего Kandinsky и Шедеврум генерируют изображения утром и ночью. Очевидно, сказывается наплыв пользователей и ощущается нагрузка на сервера. Рекомендую для активных экспериментов использовать временные промежутки с 8:00 до 11:00 и с 0:00 до 03:00 — у меня в это время изображения создаются с минимальными задержками. Что касается Kandinsky, в вебе он генерирует картинки быстрее, чем в Telegram-боте.

iGuides в Дзене — dzen.ru/iguides

iGuides в Telegram — t.me/iguides

iGuides в VK — vk.com/iguides

iGuides в Ok.ru — ok.ru/iguides