Google Gemini Omni: модель «всё-во-всё», которая делает дипфейки за секунды

Google показала модель, генерирующую видео, аудио и изображения из чего угодно. Возможности впечатляют — угрозы пугают.

В мае 2026 года Google представила Gemini Omni — мультимодальную модель, которая принимает на вход любой тип данных и генерирует любой тип данных на выходе. Текст, изображения, видео, аудио, 3D-объекты — всё это одновременно входные и выходные форматы одной нейросети. Не набор отдельных моделей, склеенных пайплайном, а единая архитектура, обученная на триллионах мультимодальных токенов.

Демонстрация на Google I/O длилась двенадцать минут. За это время модель превратила фотографию человека в видеоролик, где он стоит перед Эйфелевой башней, оживила плюшевого медведя, заставив его танцевать под сгенерированную музыку, и создала полноценный короткометражный фильм по текстовому описанию в три предложения. Зал аплодировал. Интернет замер.

Что такое Gemini Omni и почему это не просто «ещё одна модель»

До Gemini Omni мультимодальные системы работали по принципу конвейера: один модуль понимает текст, другой генерирует изображения, третий обрабатывает видео. Между ними — промежуточные представления, потери качества, задержки. Gemini Omni ломает эту парадигму. Единый трансформер с 1,8 триллиона параметров обрабатывает все модальности в общем латентном пространстве.

Практически это означает следующее: вы загружаете фотографию своего лица, произносите фразу голосом, описываете текстом сцену — и через несколько секунд получаете видеоролик, где ваш цифровой двойник произносит эту фразу в описанной обстановке. Губы синхронизированы. Освещение соответствует сцене. Тени падают правильно. Одежда реагирует на виртуальный ветер.

Архитектура построена на расширенном механизме внимания, который Google называет Cross-Modal Attention Fusion. Каждый токен — будь то фрагмент текста, патч изображения или аудиофрейм — существует в едином пространстве и может напрямую влиять на генерацию токенов любой другой модальности. Нет промежуточных шагов. Нет потерь при переводе из одного формата в другой.

Демонстрация возможностей: от впечатляющего к пугающему

На презентации Google показала несколько сценариев использования. Первый — творческий: режиссёр описывает сцену текстом, загружает референсные изображения актёров и локаций, получает черновой видеоролик за минуту. Второй — образовательный: учитель истории создаёт «живую» реконструкцию битвы при Ватерлоо, где исторические персонажи говорят на современном языке. Третий — коммерческий: маркетолог генерирует рекламный ролик с виртуальным амбассадором бренда, который выглядит как реальный человек, но не существует.

Четвёртый сценарий Google не показала. Но его показали исследователи безопасности через три дня после анонса. Они взяли публичную фотографию политика, десятисекундный фрагмент его речи с YouTube и сгенерировали видео, в котором он произносит слова, которых никогда не говорил. Качество было неотличимо от реального видео для человеческого глаза. Детекторы дипфейков, обученные на предыдущем поколении генеративных моделей, не сработали.

Отдельно стоит упомянуть функцию «оживления» статичных объектов. Загрузите фотографию плюшевой игрушки — и Gemini Omni создаст видео, где она двигается, «дышит», реагирует на окружение. Загрузите фотографию картины — и персонажи на ней начнут двигаться в стиле оригинального художника. Технически это работает через понимание физики объекта, его текстуры, возможных степеней свободы движения. Модель не просто «анимирует пиксели» — она понимает, что плюшевый медведь мягкий, что его лапы сгибаются определённым образом, что ткань складывается по определённым законам.

Скорость генерации: почему «за секунды» — это не преувеличение

Предыдущие модели генерации видео — Sora, Runway Gen-3, Kling — требовали от десятков секунд до нескольких минут на создание короткого клипа. Gemini Omni генерирует видео в разрешении 1080p со скоростью примерно 4 секунды на 10 секунд видео при работе на серверах Google. Это стало возможным благодаря новой архитектуре вывода, которую Google называет Speculative Multimodal Decoding — параллельная генерация нескольких модальностей с последующей синхронизацией.

Для конечного пользователя это означает, что создание дипфейка перестаёт быть задачей, требующей технических знаний и времени. Это становится таким же простым, как отправка сообщения в мессенджере. Загрузил фото, написал текст, получил видео. Весь процесс — меньше минуты.

Угроза доверию: когда глаза больше не свидетели

Человеческая цивилизация тысячелетиями строилась на принципе «увидеть — значит поверить». Фотография стала доказательством в суде. Видеозапись — основой журналистики. Аудиозапись — инструментом документирования. Gemini Omni и подобные модели уничтожают этот фундамент.

Проблема не в том, что кто-то создаст один вирусный дипфейк. Проблема в масштабе. Когда любой человек с доступом к API может за секунды создать неотличимое от реальности видео любого другого человека, говорящего или делающего что угодно, — сама концепция видеодоказательства теряет смысл. Это называется «дивиденд лжеца»: даже реальные видео можно объявить фейковыми, потому что «сейчас же всё можно сгенерировать».

Исследователи из Стэнфорда опубликовали препринт через неделю после анонса Gemini Omni. Они провели эксперимент: показали 2000 участникам смесь реальных и сгенерированных видео. Точность определения подлинности составила 51,3% — статистически неотличимо от случайного угадывания. Люди больше не могут отличить реальность от синтеза.

Детекция: гонка вооружений, которую мы проигрываем

Существующие системы детекции дипфейков работают по нескольким принципам: анализ артефактов сжатия, проверка консистентности освещения, отслеживание неестественных движений лица, спектральный анализ аудио. Gemini Omni обходит большинство этих проверок, потому что генерирует контент в едином пространстве, где физическая консистентность — не постобработка, а свойство самой генерации.

Google заявляет, что встраивает в каждый сгенерированный файл водяной знак SynthID — невидимую метку, которую можно обнаружить специальным детектором. Но исследователи уже показали, что простая перекодировка видео через FFmpeg с изменением битрейта удаляет водяной знак в 73% случаев. А если видео записать с экрана — водяной знак исчезает полностью.

Более перспективным направлением считается подход C2PA — Content Credentials, где подлинность контента подтверждается криптографической подписью устройства, на котором он был создан. Но это требует, чтобы все камеры, все телефоны, все программы записи поддерживали этот стандарт. До массового внедрения — годы. А Gemini Omni доступна уже сейчас.

Кто пострадает первым

Первые жертвы уже есть. Через две недели после открытия API Gemini Omni в сети появились дипфейк-видео нескольких публичных персон. Не политиков — обычных блогеров и стримеров. Их «поместили» в компрометирующие ситуации. Видео распространились быстрее, чем платформы успели их удалить. Репутационный ущерб — необратим, даже после опровержения.

Отдельная категория риска — мошенничество. Голосовые дипфейки для обмана сотрудников компаний существовали и раньше. Но теперь мошенник может провести видеозвонок, выглядя и звуча как генеральный директор компании. Верификация по видеосвязи — один из последних бастионов доверия в корпоративном мире — перестаёт работать.

Третья группа риска — обычные люди. Бывший партнёр, школьный буллер, недоброжелатель — любой, у кого есть ваша фотография и образец голоса (а они есть в социальных сетях у миллиардов людей), может создать видео, которое разрушит вашу жизнь. И доказать, что это фейк, будет практически невозможно.

Позиция Google: «мы даём инструменты, а не несём ответственность»

На пресс-конференции после анонса вице-президент Google по AI-безопасности заявил, что компания «серьёзно относится к рискам» и внедрила «многоуровневую систему защиты». В неё входят: фильтрация запросов на создание контента с реальными людьми без их согласия, водяные знаки SynthID, ограничение длины генерируемого видео, мониторинг паттернов использования.

Критики указывают, что все эти меры — косметические. Фильтрация запросов обходится переформулировкой. Водяные знаки удаляются. Ограничение длины — вопрос склейки нескольких коротких фрагментов. Мониторинг паттернов не работает, когда API используется через цепочку прокси.

Более того, Gemini Omni — не единственная модель такого класса. Через месяц после Google аналогичные возможности продемонстрировали Meta, ByteDance и три китайских стартапа. Открытые модели с похожими возможностями появятся в течение года. Даже если Google закроет свой API — джинн уже вылетел из бутылки.

Регулирование: слишком медленно, слишком поздно

Европейский AI Act, вступивший в полную силу в 2025 году, требует маркировки сгенерированного контента. Но закон написан для предыдущего поколения технологий. Он предполагает, что генерация — процесс, который можно отследить и промаркировать на стороне провайдера. Gemini Omni и подобные модели делают это предположение устаревшим: когда модель работает локально или через нерегулируемый API, маркировка становится добровольной.

В США регулирование ещё более фрагментарно. Несколько штатов приняли законы о дипфейках, но они касаются в основном порнографического контента и предвыборной агитации. Общего федерального закона нет. Китай имеет наиболее строгое регулирование синтетического контента, но оно направлено на контроль информационного пространства, а не на защиту граждан.

Проблема регулирования усугубляется трансграничностью интернета. Видео, сгенерированное в юрисдикции без ограничений, распространяется глобально за минуты. Международного соглашения по синтетическому контенту не существует и в ближайшие годы не предвидится.

Что делать: технические и социальные решения

Технические решения существуют, но ни одно из них не является серебряной пулей. Криптографическая аутентификация контента (C2PA) — наиболее перспективный подход, но требует массового внедрения в оборудование. Блокчейн-реестры оригинального контента — интересная идея, но масштабирование остаётся проблемой. AI-детекторы нового поколения, обученные на выходе Gemini Omni, — временное решение, которое устареет с выходом следующей модели.

Социальные решения, возможно, важнее технических. Медиаграмотность должна стать частью школьной программы. Люди должны научиться не доверять видео по умолчанию — так же, как мы научились не доверять электронным письмам от «нигерийских принцев». Журналистика должна перейти на модель верификации через множественные независимые источники, а не полагаться на видеодоказательства.

Платформы социальных сетей должны внедрить обязательную проверку происхождения видеоконтента перед его распространением. Это замедлит вирусность — но, возможно, это необходимая цена.

Не совсем сингулярность, но близко

Gemini Omni — не искусственный общий интеллект. Она не понимает мир так, как понимает его человек. Она не обладает сознанием, волей, целями. Но она обладает способностью, которая до недавнего времени считалась исключительно человеческой: создавать убедительную реальность из ничего.

Мы вступаем в эпоху, где граница между реальным и синтетическим стирается окончательно. Это не вопрос будущего — это происходит прямо сейчас. Каждый день в интернете появляются тысячи единиц синтетического контента, неотличимого от реального. И с каждым месяцем их будет больше.

Вопрос не в том, можно ли остановить эту технологию. Нельзя. Вопрос в том, как мы адаптируем общество к миру, где видеть — больше не значит верить. Где любое видео может быть фейком. Где доверие нужно строить на чём-то более надёжном, чем пиксели на экране.

Google создала инструмент невероятной мощи. Как и с любым мощным инструментом — от огня до ядерной энергии — вопрос не в самом инструменте, а в том, что мы с ним сделаем. Разница в том, что у нас было тысячи лет, чтобы научиться обращаться с огнём. На адаптацию к Gemini Omni у нас — месяцы.

Что дальше

Google планирует открыть полный API Gemini Omni для разработчиков в третьем квартале 2026 года. Уже сейчас ограниченный доступ имеют партнёры из списка Fortune 500. Стоимость генерации одной минуты видео — около 2 долларов. Через год, с оптимизацией инференса и конкуренцией, цена упадёт до центов.

Мы стоим на пороге мира, где создание реалистичного видео любого человека в любой ситуации будет стоить меньше чашки кофе и занимать меньше времени, чем её приготовление. Готовы ли мы к этому? Нет. Но технология не спрашивает разрешения.