Компания Яндекс анонсировала новое поколение визуальной нейросети — YandexART 2.0, которая научилась создавать надписи прямо на изображениях, придерживаться нескольких стилей на одной картинке, располагать объекты в пространстве и относительно друг друга более естественно. Вдобавок алгоритмы учитывают при генерации больше деталей из текстового запроса.
В основу YandexART 2.0 легла собственная разработка компании — новая гибридная архитектура модели, которая сочетает качество работы свёрточной и трансформерной нейросетей. Свёрточная модель работает по принципу человеческого глаза и выявляет на картинке важные признаки — края, текстуры и формы. При этом нейросеть с такой архитектурой не умеет учитывать длинный контекст (поэтому ей трудно справляться с большим количеством деталей в промтах), зато это умеет трансформер. Объединение двух этих моделей в YandexART 2.0 позволило ей точнее следовать текстовым запросам. Так, теперь она умеет придерживаться нескольких стилей в одном изображении и может, например, сгенерировать фотореалистичную банку лимонада, на этикетке которой будет аниме-персонаж.
Яндекс отмечает, что обучал YandexART на сотнях миллионов пар картинок с текстовыми описаниями к ним. Чтобы повысить качество этих текстов и сделать их более точными, Яндекс использовал собственную VLM-модель. Она анализировала изображения и детально описывала, что на них находится. YandexART 2.0 обучили на улучшенных данных, что помогло нейросети учитывать больше деталей из запроса пользователя.
Визуальные нейросети могут генерировать отдельные буквы, но для того, чтобы они начали составлять из них слова, требуется дополнительное обучение на большом количестве примеров. Яндекс расширил обучающий датасет YandexART 2.0 несколькими сотнями тысяч изображений с текстом. Так нейросеть научилась создавать надписи латинскими буквами на картинках.
Для замера качества работы нейросети Яндекс разработал новую систему оценки. Она включает в себя четыре основных параметра: релевантность, эстетичность, дефектность и комплексность, то есть сложность и детализированность картинки. Так, например, YandexART 2.0 выиграла у Midjourney v6.1 в 66% случаев по критерию комплексности, в 58% по эстетичности и практически сравнялась по доле побед в релевантности запросам пользователей.
YandexART 2.0 уже доступна на облачной платформе Yandex Cloud. Её можно использовать через API, чтобы интегрировать генерацию изображений в свои приложения, а также протестировать в демо-режиме, чтобы подобрать оптимальный промт. Нейросеть лучше понимает запросы пользователя, поэтому компании смогут быстрее и качественнее создавать реалистичные изображения для маркетинговых и рекламных кампаний. Предприниматели смогут генерировать иллюстрации для статей и социальных сетей, создавать баннеры или разрабатывать варианты брендирования одежды.
Нейросеть уже тестируют клиенты Yandex Cloud. Например, сервис Text.ru на базе YandexART создал Нейропомощника Иллюстратора, который позволяет авторам оформлять материалы для своего сайта, блога, канала, группы или магазина на маркетплейсе. Также генеративные нейросети Яндекса использует сервис presentsimple.ai, который автоматически создаёт презентации для работы или учёбы по текстовому запросу. Сервис анализирует и систематизирует материалы с помощью YandexGPT, а изображения к слайдам генерирует с помощью YandexART.
Кроме того, с помощью YandexART 2.0 уже можно создавать рекламные объявления в Яндекс Директе. Сейчас 11% рекламодателей используют картинки, сгенерированные с помощью YandexART внутри сервиса. По результатам экспериментов, использование нейрообъявлений в сочетании с собственными креативами может увеличить эффективность рекламной кампании на 10-15%.
Обычные пользователи могут применять возможности нового поколения YandexART для решения повседневных и творческих задач в чате с виртуальным ассистентом Алисой при подключении опции Про.
Алиса может не просто сгенерировать картинку, но и дополнить её и изменить так, как захочет пользователь. Промты можно уточнять прямо в режиме диалога. Например, сначала сказать: «Алиса, нарисуй свечу ручной работы», а после получения результата добавить: «вокруг еловые ветви». Виртуальный ассистент поможет создать аватарку для соцсети или иконку для приложения, логотип или принт на футболку, смешную открытку для друга или иллюстрацию для поста.
Пользователи, которые подключили опцию Алису Про, могут безлимитно создавать изображения в мобильной и десктопной версии в разных форматах, при этом генерация картинок будет занимать всего несколько секунд.
Подписаться на iGuides в Telegram, чтобы узнать обо всем первым.