Как Midjourney v5 справляется с групповыми портретами. На реалистичных фото — искривлённые лица и пальцы
Первые эксперименты с нейросетью Midjourney v5 показали, насколько пугающее реалистичные изображения выдаёт ИИ по сравнению с предыдущей версией. Герои первых планов выглядят как настоящие люди и даже количество их пальцев не превышает норму. Однако если всмотреться в задний план картинок, можно обнаружить деформированные лица и летающие по воздуху руки.
Чем пятая версия Midjourney отличается от четвёртой. Midjourney v5, которая вышла 16 марта, выдаёт более чёткие и детализированные изображения по сравнению с предыдущей версией.
Также в новой версии нет ограничений для соотношений сторон фотографий — раньше нейросеть генерировала квадратные изображения (1:1), после в ней появились ещё варианты 2:3, 3:2, а вскоре и 2:1 и 1:2. В Midjourney v5 есть возможность создать, например, фото с соотношением сторон 16:9.
Разрешение изображений в новой версии в два раза выше, чем в предыдущей — 1024 х 1024 пикселей. Помимо этого в Midjourney v5 расширился стилистический диапазон. Это означает, что при хорошо сформулирован запросе в теории пользователь сможет получать картинки в стиле разных художников, а также в конкретных художественных стилях.
В Midjourney v5 должна превзойти предыдущую версию в обработке запросов. Теперь для эксперимента с нейросетью подойдут и более длинные, описательные и детальные запросы.
Ещё одно важное улучшение — работа нейросети с общей композицией. В новой версии исправлена часть заметных недостатков v4. Она лучше справляется с изображением скопления людей, рисует более реалистичные руки с нужным количеством пальцев и реже помещает на фото рандомные объекты. Например, так отличаются картинки, сгенерированные по запросу <<Естественное фото толпы людей во время барбекю на заднем дворе>>.
Однако, после того, как в Сети стал тестировать новую версию нейросети, на кадрах со скоплением людей обнаружились и шестипалые руки, и неопознанные объекты, и искривлённые лица.
Как Midjourney v5 рисует групповые фото и руки. Дизайнер Ник Сент. Пьер, который часто делится в твиттере результатами своих экспериментов с нейросетью, проверял, как пятая Midjourney справляется с изображением группы людей, как бы случайно заснятых фотографом. Ник показал фото от ИИ по запросу <<Уличное фото из 1960-х группы молодых женщин, стоящих на борту парусной яхты, одетых в шёлковые платья Dior c жемчужными ожерельями на фоне заката над океаном, снятое на Agfa Vista 200 [любительская фотоплёнка — прим. MediaLeaks], 4k — соотношение сторон 16:9>>.
Фото выглядит реалистично, и на первый взгляд сложно заметить в нём лишние пальцы или рандомные объекты. Но если всмотреться внимательнее, то можно заметить, что рука в белой перчатке будто висит в воздухе, и понять, какой из женщин она принадлежит, затруднительно. А у двух героинь на заднем плане нейросеть растянула солнцезащитные очки так, что девушки стали похожи на стрекоз.
При этом на одиночных портретах к пальцам и лицам на кадрах от Midjourney v5 так просто не придраться — они выглядят как у реальных людей.
Другой групповой снимок из подборки Ника привлекает внимание задним планом. Дизайнер генерировал изображение по запросу: <<Стрит-стайл фото оживлённого подвального магазина с людьми, стоящими у гастрономического прилавка — соотношение сторон 16:9>>.
Кадр кажется атмосферным, однако при внимательном рассмотрении в левой половине снимка можно заметить, как искривились пропорции головы у продавцов за прилавками. А у покупателя в центре кадра пальцы слились в неаккуратный ком.
В левой части фото на заднем плане видно женщин, которые стоят в очереди к другому прилавку. При лёгком увеличении изображения можно заметить, как сильно деформировались их лица.
На этом фото отчётливо видно, что Midjourney сложно даются изображения букв. Ни одно слово на вывесках, попавших в кадр невозможно прочитать, потому что все они состоят из набора знаков, напоминающих то латиницу, то иероглифы.
Возможно, это разработчикам удастся исправить это в следующих версиях нейросети. При желании в групповых фото от Midjourney v5 можно найти ещё больше недостатков, чем пользователи Сети активно занимаются. Однако фотореалистичность изображений от новой версии ИИ вывела на новый виток разговоры о том, что нейросети заменят создателей визуального контента.
Midjourney v4 умела вызвать эффект зловещей долины, генерируя групповые снимки. MediaLeaks рассказывал о фото вечеринки миллениалов, которое на первый взгляд кажется реальным. Но чем дольше смотришь на кадр, тем больше шестипалых рук на нём можно заметить.
А новую версию нейросети уже начали использовать для создания развлекательных постов. Блогер Джимми Нейрон показал, как выглядела бы хуманизация сырков Б. Ю. Александров в исполнении Midjourney v5.