В 2025 году генеративное видео перешло от экспериментальных демонстраций к реальному соревнованию между промышленными гигантами. Наиболее значимым противостоянием в этой сфере стало сравнение Sora — флагманской видеогенеративной модели от OpenAI, и Google Veo 3 — третьей версии видеогенератора от Google. Несмотря на то что обе системы пока остаются в стадии ограниченного доступа, наше практическое тестирование показало, что даже на фоне улучшений, внесённых в Veo 3, Sora демонстрирует системное преимущество в ключевых аспектах, определяющих реальную применимость таких технологий. Но давайте о нашем тесте поговорим чуть подробнее.

Что нового в Google Veo 3?
Google представила Veo 3 как существенный шаг вперёд по сравнению с Veo 2, заявив о трёх главных улучшениях:
- Увеличение максимальной длины видео до 60 секунд с сохранением визуальной согласованности.
- Поддержка сложных кинематографических указаний, включая «замедленную съёмку», «съёмку с дрона» и «глубину резкости».
- Улучшенная обработка многоэлементных промптов с одновременным управлением персонажами, окружением и освещением.
Эти обновления действительно делают Veo 3 одной из самых визуально впечатляющих моделей на рынке. Однако, как показало сравнение с Sora, технологические улучшения не всегда напрямую переводятся в функциональное превосходство.
Как проходило сравнение Sora и Veo 3?
Тестирование проводилось в реальных условиях: обеим моделям давали идентичные текстовые запросы, варьирующиеся от простых до крайне сложных. Особое внимание уделялось сценариям, проверяющим:
- способность сохранять логику сцены во времени;
- интерпретацию физических законов и пространственных отношений;
- реакцию на абсурдные, но структурированные промпты, имитирующие запросы креаторов в реальной работе.
Примеры использованных промптов включали «собака в пиджаке читает газету в парижском кафе под дождём» и «робот-художник рисует портрет человека на фоне заката в Киото». Подобные сцены требуют не просто красивой картинки, а понимания причинно-следственных связей и временной последовательности.
Почему Sora обошла Veo 3?
Несмотря на все улучшения, внедрённые в Veo 3, Sora превзошла её по трём критически важным показателям:
- Физическая и временная согласованность. Sora последовательно сохраняла форму объектов, их положение и взаимодействие на протяжении всего ролика, тогда как Veo 3 всё ещё допускала «разрывы» — например, исчезновение предметов или изменение масштаба без причины.
- Точность интерпретации промптов. Если в запросе упоминалось «рассвет», Sora корректно воспроизводила мягкий свет и длинные тени, тогда как Veo 3 часто игнорировала временные и атмосферные детали.
- Устойчивость к абсурдным сценариям. Sora не теряла логику даже в сюрреалистичных промптах, тогда как Veo 3 начинала «деградировать» уже к середине видео.
Эти различия указывают на то, что архитектура Sora изначально проектировалась с акцентом на моделирование динамических процессов, а не только на генерацию визуально привлекательных кадров.

Сравнение Sora и Google Veo 3 по ключевым параметрам
| Критерий | Sora (OpenAI) | Google Veo 3 |
|---|---|---|
| Версия | Первая публично анонсированная версия | Третья итерация видеогенератора от Google |
| Макс. длительность видео | До 60 секунд | До 60 секунд |
| Разрешение | До 1080p | До 1080p |
| Поддержка кинематографических команд | Полная (ракурсы, замедление, фокусировка) | Частичная (есть артефакты при сложных съёмках) |
| Обработка временных зависимостей | Высокая | Умеренная |
| Реакция на сложные промпты | Высокая точность | Часто пропускает второстепенные детали |
| Доступность | Закрытое тестирование с избранными пользователями | Ограниченный доступ через AI Test Kitchen |
Стратегические различия подходов
OpenAI с самого начала позиционировала Sora как инструмент не для «рендеринга», а для «моделирования мира». Это отражается в архитектуре: Sora обучена на огромных массивах видео с аннотациями, включая физические параметры, глубину, движение и взаимодействия объектов. Google, напротив, в Veo 3 сделал ставку на визуальную эстетику и стилистическую гибкость, опираясь на мощности своей мультимодальной экосистемы. Это дало Veo 3 преимущества в цветокоррекции и текстурировании, но не решило фундаментальных проблем с временной согласованностью.
Что означает это сравнение для будущего ИИ-видео?
Победа Sora над Veo 3 — не просто техническая деталь. Она подтверждает тренд: будущее генеративного видео лежит не в «красивых клипах», а в системах, способных когерентно моделировать реальность во времени. Для индустрии это критически важно: только так можно интегрировать ИИ в реальные продакшн-процессы — от рекламы до анимации и обучающих симуляций.
Уже появляются данные, что OpenAI активно тестирует Sora в сотрудничестве с крупными студиями, включая Warner Bros. и Netflix, для создания раскадровок и прототипов сцен. Google, в свою очередь, пока ограничивается исследовательскими кейсами и не анонсирует коммерческих партнёрств.
Когда зритель перестанет отличать ИИ от реальности?
Сравнение Sora и Veo 3 показывает: гонка за генеративное видео только начинается. Если Sora продолжит удерживать преимущество в понимании мира, она может стать стандартом де-факто. Но Google, обладая колоссальными вычислительными ресурсами и данными, вряд ли сдастся без боя. Следующая итерация — Veo 4 или Sora 2 — может полностью изменить расстановку сил.

