Сбер обновил свою нейросетку для генерации изображений по текстовому описанию Kandinsky до версии 2.1, а Яндекс выпустил бета-версию приложения Шедеврум. Бегло попробовал и остался недоволен, а потом во всем разобрался и получил вполне достойный результат. Расскажу, как от этих нейросетей получить желаемые изображения.
В Шедеврум слишком много ограничений — Яндекс, судя по всему, перестраховывается, поэтому вы не сможете создать изображения с реальными людьми. Также есть очень много ограничений на вполне безобидные сцены. Из-за этого желание пользоваться нейросетью отпадает — пусть пока её потренируют другие, менее привередливые пользователи. Также качество изображений оставляет желать лучшего — смотри сравнения генерации по одному и тому же промту в Kandinsky и Шедеврум.
Шедеврум
Ах-да, на всякий случай стоит упомянуть, что здесь и далее промт — это текстовой запрос к нейросетям, по которому генерируется изображение.Kandinsky
Тем не менее стоит отметить отличную реализацию Шедеврум в форме приложения. Оно работает очень стабильно и у него приятный интерфейс. Разработчики буквально сделали некое подобие социальной сети — все создаваемые изображения публикуются в общую ленту, там пользователи их могут оценить лайками и просмотреть используемые промты.
Kandinsky от Сбера доступен в вебе и в виде бота для Telegram. В вебе возможностей побольше, но поскольку я занимаюсь созданием изображений по фану, «кручу» его на мобиле в телеге.
Первые попытки взаимодействия с Kandinsky оставляли желать лучшего. Потом я решил опробовать привычные промты для Midjourney и Stable Diffusion. Результат порадовал. Kandinsky
Как составить правильный промт для получения нужного результата
Абстрактные запросы могут срабатывать, но зачастую результат получается непредсказуемым. Пример ниже: «Дядя едет на динозавре по млечному пути». Генерация в таком формате довольно быстро надоедает и хочется получать наиболее точные и предсказуемые результаты. Как составить для этого промт? Нейросети любят конкретику. Чем точнее будет ваш промт, тем более предсказуемым получится результат. Я использую для составления запросов довольно распространенную и стандартную схему:- Описание основного объекта
- Описание локации и сцены
- Параметры освещения и стиль визуализации
- Технические параметры
Вариации по промту: skull nousr robot, armored, stealth, character design, highly detailed, intricate details, digital 3d, hard surface, real-time, vfx, trending on artstation, sharp focus, uhd, hdr.
Например, нам нужно получить изображение девушки с темными волосами на фоне Парижа, а стиль должен быть на уровне профессиональной съемки. Описываем всю это сцену на английском языке по предложенной выше схеме, получится: «Portrait of a brunette girl with sunglasses in the background of Paris, dynamic pose, Cinematic, Moody Lighting, Shot on 50mm lens, Depth of Field, Shutter Speed 1/1000, F/22, Super-Resolution, super detailed, photography». Давайте разберем эту билеберду на схему:
- Описание основного объекта, локации и сцены: Portrait of a brunette girl with sunglasses in the background of Paris
- Параметры освещения и стиль визуализации: dynamic pose, Cinematic, Moody Lighting
- Технические параметры: Shot on 50mm lens, Depth of Field, Shutter Speed 1/1000, F/22, Super-Resolution, super detailed, photography