Veo, остання модель генеративного ШІ для відео від Google, тепер доступна для бізнесу, який може почати інтегрувати її в свої процеси створення контенту.
Про це пише РБК-Україна (проект Styler) із посиланням на сайт новин у сфері технологій TechCrunch.
Модель була вперше представлена в травні через три місяці після того, як OpenAI продемонструвала свій конкуруючий продукт Sora. Veo випередила його на ринку, запустившись у рамках приватного прев'ю через платформу Google Vertex AI.
Veo може генерувати кліпи тривалістю до шести секунд у роздільній здатності 1080p із зображеннями тварин, об'єктів та людей, при 24 або 30 кадрах на секунду. Google заявляє, що Veo здатна захоплювати різні візуальні та кінематографічні стилі, включаючи пейзажі та таймлапси, а також вносити зміни до вже згенерованих відеоматеріалів.
Чому так довго чекати на API? "З моменту анонсу Veo наші команди удосконалили, зміцнили та покращили модель для корпоративних клієнтів на платформі Vertex AI", - заявив Уоррен Барклі, старший директор з управління продуктами в Google Cloud.
“На даний момент ви можете створювати відео з високою роздільною здатністю 720p, зі співвідношенням сторін 16:9 для ландшафтного та 9:16 для портретного формату. Подібно до того, як ми покращували можливості інших моделей, таких як Gemini на Vertex AI, ми продовжуватимемо робити це для Veo” - додав він.
Veo добре розуміє візуальні ефекти підказок, наприклад, такі як “величезний вибух”, і має деяке уявлення про фізику, включаючи динаміку рідин. Модель також підтримує масковане редагування для зміни конкретних областей відео та теоретично здатна з'єднувати фрагменти відео у більш довгі проекти.
Таким чином, Veo конкурує з провідними моделями для генерації відео на сьогоднішній день - не лише з Sora від OpenAI, але й з моделями від Adobe, Runway, Luma, Meta та інших.
Однак це не означає, що Veo ідеальна. Відображаючи обмеження сучасного ШІ, об'єкти у відео Veo зникають і знову з'являються без особливих пояснень чи послідовності. Крім того, Veo часто помиляється у фізиці. Наприклад, машини можуть несподівано та неймовірно почати рухатися заднім ходом.
Одні з творів Veo (gif: Google)
Модель Veo навчена на велику кількість відеоматеріалів. Це типовий підхід для генеративних моделей ШІ: надаючи безліч прикладів даних, моделі вчаться виявляти в них закономірності, що дозволяє створювати нові дані - у випадку Veo це відео.
Google, як і багато конкурентів у сфері ШІ, не розкриває, звідки саме беруться дані для навчання таких моделей. На питання про Veo Уоррен Барклі відповів лише, що модель "можливо, була навчена на деяких даних з YouTube відповідно до угоди Google із творцями контенту на YouTube".
"Veo була навчена на різних високоякісних наборах даних з описами відео, які ретельно відібрані для забезпечення безпеки та надійності", - додав Барклі.
Хоча Google надає інструменти, що дозволяють власникам веб-сайтів блокувати збір даних з їх ресурсів, компанія не має механізму, який би дозволяв авторам контенту виключити свої роботи з вже існуючих навчальних наборів.
Google стверджує, що навчання моделей на загальнодоступних даних є сумлінним використанням, а отже компанія вважає, що не зобов'язана вимагати дозволу у власників даних або виплачувати їм компенсацію. У компанії також заявили, що не використовують дані для навчання своїх моделей.
Особливості сучасних генеративних моделей несуть певні ризики, наприклад, регенерацію, коли модель створює копії навчальних даних. З'ясувалося, що інструменти, такі як Runway, іноді видають зображення, які дуже схожі з кадрами із захищених авторським правом відео, що створює потенційні юридичні ризики для користувачів.
Рішенням Google є фільтри на рівні підказок, включаючи фільтри для насильницького та відвертого контенту. У разі їхнього збою компанія обіцяє підтримку в рамках своєї політики відшкодування збитків для користувачів Veo, яких можуть звинуватити у порушенні авторських прав.
"Ми плануємо надавати відшкодування збитків за контент, створений Veo на платформі Vertex AI після її загального запуску", - заявив Барклі.
Надання еталонного зображення з підказкою дозволяє Veo згенерувати відео, яке відповідає стилю зображення та інструкціям підказки (gif: Google)
За останні кілька місяців Google поступово інтегрувала Veo у свої додатки та сервіси, працюючи над покращенням моделі.
У травні Veo стала доступною в Google Labs, програмі раннього доступу для обраних тестувальників. А у вересні Google анонсувала інтеграцію Veo із YouTube Shorts, форматом коротких відео на YouTube, щоб автори могли створювати фони та шестисекундні відеоролики.
Але як бути з ризиками дипфейків? Google стверджує, що використовує свою фірмову технологію водяних знаків SynthID, щоб додавати в згенеровані кадри невидимі маркери.
Ці питання можуть виявитися не такими важливими, якщо Veo не знайде широкого застосування.
Наприклад, Runway нещодавно уклала угоду з Lionsgate для навчання моделі на фільмотеці студії, а OpenAI співпрацює з брендами та незалежними режисерами, демонструючи можливості Sora.
Основний аргумент Google на користь Veo - це спосіб скоротити витрати та прискорити процес створення відеоконтенту. Однак, цей підхід може відштовхнути креативних фахівців. Згідно з дослідженням, замовленим Гільдією аніматорів (Animation Guild), до 2026 року ШІ порушить роботу понад 100 000 робочих місць у сфері кіно, телебачення та анімації в США.
Ймовірно, саме тому Google діє обережно та повільно. На питання про терміни загального запуску Veo на платформі Vertex або її появи в інших сервісах Google Уоррен Барклі не дав відповіді.
У супутньому анонсі Google повідомила, що її флагманський генератор зображень Imagen 3 тепер доступний всім клієнтам Vertex AI без очікування в списку черги. Однак нові функції кастомізації та редагування зображень поки що доступні лише через окремий список очікування.
Veo вже запущено у закритій попередній версії (gif: Google)
У нас також є матеріал про те, як генеративний ШІ впливає на наші робочі місця вже сьогодні.
А ще ми писали про кілька нейромереж, які здатні пожвавити звичайне фото.