Veo, последняя модель генеративного ИИ для видео от Google, теперь доступна для бизнеса, который может начать интегрировать ее в свои процессы создания контента.
Об этом пишет РБК-Украина (проект Styler) со ссылкой на сайт новостей в сфере технологий TechCrunch.
Модель была впервые представлена в мае, через три месяца после того, как OpenAI продемонстрировала свой конкурирующий продукт Sora. Veo опередила его на рынке, запустившись в рамках частного превью через платформу Google Vertex AI.
Veo может генерировать клипы продолжительностью до шести секунд в разрешении 1080p с изображениями животных, объектов и людей, при 24 или 30 кадрах в секунду. Google заявляет, что Veo способна захватывать различные визуальные и кинематографические стили, включая пейзажи и таймлапсы, а также вносить изменения в уже сгенерированные видеоматериалы.
Почему так долго ждать API? “С момента анонса Veo наши команды усовершенствовали, укрепили и улучшили модель для корпоративных клиентов на платформе Vertex AI”, - заявил Уоррен Баркли, старший директор по управлению продуктами в Google Cloud.
“На данный момент вы можете создавать видео в высоком разрешении 720p, с соотношением сторон 16:9 для ландшафтного и 9:16 для портретного формата. Подобно тому, как мы улучшали возможности других моделей, таких как Gemini на Vertex AI, мы будем продолжать делать это для Veo” - добавил он.
Veo хорошо понимает визуальные эффекты из подсказок, например, такие как “огромный взрыв”, и имеет некоторое представление о физике, включая динамику жидкостей. Модель также поддерживает маскированное редактирование для изменения конкретных областей видео и теоретически способна соединять фрагменты видео в более длинные проекты.
Таким образом, Veo конкурирует с ведущими моделями для генерации видео на сегодняшний день - не только с Sora от OpenAI, но и с моделями от Adobe, Runway, Luma, Meta и других.
Однако это не значит, что Veo идеальна. Отражая ограничения современного ИИ, объекты в видео Veo исчезают и снова появляются без особых объяснений или последовательности. Кроме того, Veo часто ошибается в физике. Например, машины могут неожиданно и невероятно начать двигаться задним ходом.
Одни из творений Veo (gif: Google)
Модель Veo обучена на большом количестве видеоматериалов. Это типичный подход для генеративных моделей ИИ: предоставляя множество примеров данных, модели учатся выявлять в них закономерности, что позволяет создавать новые данные - в случае Veo это видео.
Google, как и многие его конкуренты в сфере ИИ, не раскрывает, откуда именно берутся данные для обучения таких моделей. На вопрос о Veo Уоррен Баркли ответил лишь, что модель “возможно, была обучена на некоторых данных с YouTube в соответствии с соглашением Google с создателями контента на YouTube”.
“Veo была обучена на различных высококачественных наборах данных с описаниями видео, которые тщательно отобраны для обеспечения безопасности и надежности”, - добавил Баркли.
Хотя Google предоставляет инструменты, позволяющие владельцам веб-сайтов блокировать сбор данных с их ресурсов, у компании нет механизма, который бы позволял авторам контента исключить свои работы из уже существующих обучающих наборов.
Google утверждает, что обучение моделей на общедоступных данных является добросовестным использованием, а значит, компания считает, что не обязана запрашивать разрешение у владельцев данных или выплачивать им компенсацию. В компании также заявили, что не используют пользовательские данные для обучения своих моделей.
Особенности современных генеративных моделей несут определенные риски, например, регенерацию, когда модель создает копии обучающих данных. Выяснилось, что инструменты, такие как Runway, иногда выдают изображения, сильно схожие с кадрами из защищенных авторским правом видео, что создает потенциальные юридические риски для пользователей.
Решением Google являются фильтры на уровне подсказок, включая фильтры для насильственного и откровенного контента. В случае их сбоя компания обещает поддержку в рамках своей политики возмещения убытков для пользователей Veo, которых могут обвинить в нарушении авторских прав.
“Мы планируем предоставлять возмещение убытков за контент, созданный Veo на платформе Vertex AI, после ее общего запуска”, - заявил Баркли.
Предоставление эталонного изображения с подсказкой позволяет Veo сгенерировать видео, которое соответствует стилю изображения и инструкциям подсказки (gif: Google)
За последние несколько месяцев Google постепенно интегрировала Veo в свои приложения и сервисы, работая над улучшением модели.
В мае Veo стала доступна в Google Labs, программе раннего доступа для избранных тестировщиков. А в сентябре Google анонсировала интеграцию Veo с YouTube Shorts, форматом коротких видео на YouTube, чтобы авторы могли создавать фоны и шестисекундные видеоролики.
Но как же быть с рисками дипфейков? Google утверждает, что использует свою фирменную технологию водяных знаков SynthID, чтобы добавлять в сгенерированные кадры невидимые маркеры. Однако SynthID не является полностью защищенным от редактирования, и Google пока не предоставила технологию идентификации контента сторонним разработчикам.
Эти вопросы могут оказаться не столь важными, если Veo не найдет широкого применения. В плане партнерства Google уступила конкурентам, работающим с генеративным ИИ. Те активно привлекают продюсеров, студии и креативные агентства.
Например, Runway недавно заключила сделку с Lionsgate для обучения модели на фильмотеке студии, а OpenAI сотрудничает с брендами и независимыми режиссерами, демонстрируя возможности Sora.
Основной аргумент Google в пользу Veo - это способ сократить затраты и ускорить процесс создания видеоконтента. Однако этот подход может оттолкнуть креативных специалистов. Согласно исследованию, заказанному Гильдией аниматоров (Animation Guild), к 2026 году ИИ нарушит работу более 100 000 рабочих мест в сфере кино, телевидения и анимации в США.
Вероятно, именно поэтому Google действует осторожно и медленно. На вопрос о сроках общего запуска Veo на платформе Vertex или ее появления в других сервисах Google Уоррен Баркли не дал конкретного ответа.
В сопутствующем анонсе Google сообщила, что ее флагманский генератор изображений Imagen 3 теперь доступен для всех клиентов Vertex AI без ожидания в списке очереди. Однако новые функции кастомизации и редактирования изображений пока доступны только через отдельный список ожидания.
Veo уже запущен в закрытой предварительной версии (gif: Google)
У нас также есть материал о том, как генеративный ИИ влияет на наши рабочие места уже сегодня.
А еще мы писали про несколько нейросетей, которые способны оживить обычное фото.