Новая эра генерации изображений: GPT-4o и Gemini 2.0 Flash меняют правила игры

Привет, друзья! Сегодня я хочу рассказать вам о свежих новостях из мира искусственного интеллекта. OpenAI и Google недавно представили свои новые разработки — GPT-4o и Gemini 2.0 Flash, которые обещают перевернуть наше представление о генерации изображений. Эти нейросети не просто рисуют красивые картинки, а предлагают что-то большее: умение понимать контекст, редактировать изображения и даже создавать видео. Давайте разберёмся, что это за технологии, чем они отличаются от привычных генераторов и стоит ли уже бежать их пробовать.
Чем обычные генераторы изображений отличаются от новинок?
Для начала давайте вспомним, как работают знакомые нам инструменты, такие как DALL-E в ChatGPT или Imagen в Gemini. Это классические генераторы изображений, и их процесс выглядит примерно так:
- Вы общаетесь с языковой моделью в чате.
- Когда вам нужна картинка, модель передаёт ваш запрос отдельной диффузионной модели[1].
- Эта модель создаёт изображение с нуля и отправляет его обратно в чат.
- Если нужно что-то изменить, вы пишете новый запрос, и всё начинается сначала.
Представьте, что вы звоните другу-писателю, а он перенаправляет ваш заказ художнику. Удобно, но не всегда быстро и гибко.
А вот GPT-4o и Gemini 2.0 Flash — это омнимодальные нейросети[2]. Они не разделяют текст и картинки на разные процессы: одна и та же модель умеет и общаться, и рисовать. Это как если бы ваш друг был одновременно писателем и художником — всё в одном флаконе.
[1]: Диффузионная модель — тип нейросети, который создаёт изображения, постепенно убирая шум из случайного набора пикселей, пока не получится картинка, соответствующая вашему запросу.
[2]: Омнимодальная нейросеть — модель, которая может работать с разными типами данных (текст, изображения, аудио) в рамках одной системы.
Как работают омнимодальные нейросети?
В этих новых моделях изображения обрабатываются как набор токенов[3] — таких же, как слова в тексте. Например, в GPT-4o картинка генерируется построчно, словно страница загружается на старом dial-up интернете. Вы буквально видите, как она "рисуется" на глазах! Про Gemini 2.0 Flash точных деталей меньше, но принцип похожий: единая модель понимает и текст, и визуальные данные.
GPT-4o, кстати, ещё и аудио умеет генерировать — это то, на чём построен голосовой режим ChatGPT. А скоро в ChatGPT добавят возможность создавать видео через Sora прямо в чате (до трёх видео в сутки бесплатно). Это уже не просто генератор картинок, а настоящий мультимедийный помощник.
[3]: Токены — небольшие единицы информации, на которые нейросеть разбивает текст или изображения для обработки.
Почему это круто? Преимущества новых моделей
1. Глубокое понимание контекста
Поскольку всё делает одна модель, она лучше "чувствует" ваш запрос. Например, GPT-4o может создать комикс из нескольких кадров или инфографику, даже если вы дадите короткий промт вроде "нарисуй, как работает двигатель". Модель сама догадается, что добавить, включая текст, и учтёт предыдущие сообщения в чате. Gemini 2.0 Flash тоже понимает контекст, но пока меньше примеров, чтобы судить о его "креативности".
2. Удобное редактирование
Захотели поменять ночь на день или открыть дверь на фото машины? Просто скажите об этом словами, и модель сделает правки, сохраняя общую композицию. GPT-4o даже умеет удалять фон у картинок — привет, прозрачные PNG без Photoshop! Gemini 2.0 Flash тоже справляется с редактированием, особенно хорошо сохраняя лица, но иногда чуть меняет детали, которые трогать не просили.
3. Итеративность
Вы можете дорабатывать картинку прямо в диалоге. Например, создать персонажа для видеоигры, а потом менять его одежду или фон, сохраняя узнаваемый стиль. Это особенно удобно для творческих задач, где нужно много экспериментировать.
А есть ли недостатки?
Да, идеальными эти модели пока не назовёшь. OpenAI сама признаёт, что GPT-4o иногда "глючит": обрезает длинные изображения, выдумывает детали или плохо справляется с текстом на не латинских языках (например, кириллице). Если в картинке слишком много объектов — вроде таблицы Менделеева, — результат может быть неточным. Плюс генерация занимает больше времени, иногда до минуты, из-за детальности изображений.
Gemini 2.0 Flash тоже не без греха. При редактировании он лучше сохраняет исходник, чем GPT-4o, но всё равно теряет часть деталей из-за преобразования картинки в токены и обратно. А по качеству генерации обе модели уступают лидерам рынка, таким как Reve или Recraft, где больше внимания уделяют деталям и точности.
Это лучшие генераторы изображений на рынке?
Если вам нужны суперреалистичные картинки или идеальное следование сложным промтам, то пока нет. Reve и Recraft остаются впереди по качеству и точности. Но GPT-4o и Gemini 2.0 Flash выигрывают за счёт универсальности и интеграции с чатом. Это не просто генераторы, а помощники, которые понимают вас с полуслова и готовы дорабатывать результат вместе с вами.
Где попробовать?
- GPT-4o: Генерация изображений уже доступна в ChatGPT для платных подписчиков (Plus, Pro, Team), а скоро откроется и для бесплатных пользователей. Видео через Sora тоже добавят в чат, и это будет доступно всем (с лимитом в три видео в день). Разработчики смогут использовать модель через API, а фанаты DALL-E сохранят доступ к нему через отдельный GPT.
- Gemini 2.0 Flash: Доступен в Google AI Studio и через API. Пока это больше инструмент для разработчиков, но Google явно планирует расширять его применение.





Что в итоге?
GPT-4o и Gemini 2.0 Flash — это шаг к будущему, где ИИ станет настоящим творческим партнёром. Они не заменят профессиональные инструменты вроде Photoshop или топовые генераторы изображений, но уже сейчас делают создание контента проще и доступнее. Хотите быстро сделать инфографику, отредактировать фото или придумать персонажа? Эти модели для вас. А если вы перфекционист, возможно, стоит подождать, пока их доработают.
Что думаете вы? Уже пробовали новые фичи или ждёте полного релиза? Делитесь в комментариях — мне любопытно узнать ваше мнение!
Комментарии ()