...
Понеділок, 10 Листопада, 2025
11.5 C
Kyiv

Ефективно генерування довгих, якісних та динамічних відео за допомогою текстових підказок

Швидкий розвиток AI постійно розвиває сферу покоління тексту до відео (T2V), пропонуючи багатий та зручний досвід створення відеоконтенту та розблокуючи нові можливості в розвагах, освіті та мультимедійному спілкуванні. Традиційні методи T2V, однак, обмежені через відсутність даних та обчислювальних ресурсів, що ускладнює створення довгих відео (довше 30 секунд), які містять динамічний вміст та тимчасову послідовність. Досягнення узгодженості та збереження динаміки при створенні довгих відеороликів, а також підвищення ефективності стало ключовим напрямком у цій галузі.

Для вирішення цього дослідницька група Microsoft Research Asia розробила рамку Arlon, яка поєднує в собі авторегресивні (AR) моделі з технологією дифузійного трансформатора (DIT). Використовуючи вектор, квантовану векторну технологію варіаційного автокодера (VQ-VAE), Arlon ефективно стискає та квантує високовимірні вхідні особливості в завданнях T2V, зменшуючи складність навчання без шкоди щільності інформації. За допомогою текстових підказок Арлон синтезує високоякісні відео, які зберігають як багату динаміку, так і тимчасову узгодженість.

діаграма
Малюнок 1. Рамка висновку Арлона

Вони оптимізували рамки Arlon, ввівши адаптивний семантичний ін'єкційний модуль та стратегію вибірки невизначеності, підвищуючи надійність моделі до шуму та підвищення ефективності генерації відео. Адаптивний семантичний модуль впорскування використовує механізм адаптивної нормалізації з закритим собою для введення грубої семантичної інформації в процес генерації відео. Тим часом, стратегія вибірки невизначеності імітує помилки в прогнозах AR шляхом відбору шуму від розподілу оригінальних грубих прихованих ознак, покращуючи пристосованість моделі до різних умов введення.

Оцінка демонструє, що Арлон може значно перевершити попередні моделі генерації відео в надійності, природності та динамічній послідовності. Навіть при обробці високо складних або повторюваних сцен, він може послідовно синтезувати високоякісні відео. Використовуючи еталон генерації відео VBench, Арлон перевершив існуючі базові моделі та досяг новаторського прогресу в декількох показниках оцінювання. Успіх рамок Арлона демонструє потенціал поєднання сильних сторін різних моделей для вирішення складних проблем та пропонує нові напрямки для просування технології генерації відео.

Як Арлон підвищує ефективність та якість довгого генерації відео

Рамка Arlon складається з трьох первинних компонентів: приховане стиснення VQ-VAE, моделювання AR та семантичне покоління стану. Враховуючи текстовий підказку, модель AR передбачає грубі візуальні латентні жетони, побудовані з 3D-кодера VAE, а потім прихованим кодером VQ-VAE. Ці прогнозовані візуальні латентні жетони інкапсулюють як грубу просторову інформацію, так і послідовну семантичну інформацію. Виходячи з цих жетонів, прихований декодер VQ-VAE генерує безперервні приховані риси, які служать семантичними умовами для керівництва моделлю DIT із семантичним модулем впорскування.

Ці компоненти детально описані нижче:

Приховане стиснення VQ-VAE є вирішальним крок карт високовимірних вхідних особливостей у компактному та дискретному прихованому просторі. Процес досягається за допомогою такого виразу:

сформулювати

Там, де x∈R^(t × h × w × c) являє собою вхідні особливості, E_ ”латентний” – це кодер, що складається з 3D -конволюційних блоків нейронної мережі та залишкових блоків уваги, а v∈R^(t/r × h/o × w/o × h) кодується приховане вбудовування. Кожен вбудований вектор v∈R^H квантовано до найближчого запису c∈R^m у кодовій книжці c∈R^(k × m), утворюючи дискретну латентну вбудовування (q):

сформулювати

Процес декодування передбачає отримання відповідних записів (c) з кодової книги (c) з урахуванням індексів відеокоси, а потім використання прихованого декодера vq-vae для реконструкції відео вбудовування (f):

сформулювати

АР моделювання Використовує причинний декодер трансформатора як мовну модель, поєднуючи текстовий стан Y та індекси візуальних жетонів Q як вхід у модель для генерування відеоконтенту в AR. Цей процес може бути описаний наступною ймовірнісною моделлю:

сформулювати

де Q_ ”ar” =[q_1,q_2,…,q_N ] – послідовність індексів візуального токена, а N – довжина послідовності. Θ“AR” являє собою параметри моделі. Мета моделі – максимізувати ймовірність послідовності індексу візуального маркера Q“AR”, враховуючи текстовий стан Y.

У Семантичне покоління стану Фаза, рамка Arlon використовує відео VAE та прихований VQ-VAE для стиснення відео у грубий прихований простір. Він використовує жетони, передбачені моделлю AR, як семантичні умови для навчання моделі дифузії. Цей процес може бути представлений:

сформулювати

Там, де x-це вхідне відео, e_ “відео”-це відеокодер, E_ “Latent”-прихований кодер VQ-VAE, D_ “Latent”-це прихований декодер VQ-Vae, а F-реконструйована прихована функція, що використовується як семантична умова.

Семантична ін'єкція передбачає введення грубої семантичної інформації в процес генерації відео для керівництва процесом дифузії. Це передбачає наступні кроки:

сформулювати

Якщо x_i є вхідною латентною змінною, f ̂_i-це умова латентна змінна, оброблена за допомогою вибірки невизначеності, α_i, β_i, γ_ire шкала, зсув та параметри грибів, створених за допомогою багатошарової мережі перцептрону (MLP) та функції «злиття», вводить інформацію про умову в оригінальну змінну змінну.

Арлон 的整体框架
Малюнок 2. Огляд загальної рамки Арлона

Щоб пом'якшити неминучий шум, введений під час висновку АР, команда прийняла наступні дві стратегії на етапі навчання:

Грубі візуальні латентні жетони: Два різних коефіцієнти стиснення прихованих VQ-VAE для тренувань та висновку підвищують толерантність процесу дифузії до галасливих прогнозів AR.

Вибір невизначеності: Для імітації дисперсії прогнозів AR було введено модуль відбору невизначеності. Це породжує шум від розподілу оригінальних грубої прихованої функції F_I, а не суворо покладатися на оригінальні грубої прихованої функції:

сформулювати

де μ_I та σ_i-це середнє та стандартне відхилення шумів відповідно, а F ‾_i = (f_i-μ_i)/σ_i-нормалізована особливість. σ ̂_i та μ ̂_i – шумні вектори, відібрані із середнього значення цільової функції та розподілу дисперсії.

Результати оцінки

Команда оцінила Арлон проти інших моделей покоління з текстовим кодом з відкритим кодом, що використовують VBench, такі як динамічна ступінь, естетична якість, якість зображень, послідовність суб'єкта, загальна послідовність, послідовність фону та плавність руху. Арлон досяг найсучасніших показників у довгій генерації відео, зі значними покращеннями як ефективності виводу, так і якості генерації. Результати, показані на малюнку 3, демонструють, що Арлон перевищує багаторазові показники оцінювання, особливо в динамічній мірі та естетичній якості.

Арлон 与其他长视频生成方法在性能上的比较结果
Малюнок 3. Порівняння продуктивності Арлона проти інших довгих методів генерації відео.

Якісні результати ще більше підкреслюють здатність Арлона підтримувати як динамізм, так і послідовність у створених відео. На відміну від моделей, які генерують статичні або майже нерухомі відеоролики, Арлон досягає кращого балансу між динамічним рухом, тимчасовою послідовністю та природною гладкістю. Його відео зберігають високий рівень суб'єктивності, демонструючи рідину та рятувальний рух.

Арлон 与其他长视频方法的定性比较
Малюнок 4. Якісне порівняння між Арлоном та іншими довгими методами генерації відео.
Арлон 根据文案 «Туманні гори на сході сонця, із сонцем, що кидає тепле сяйво ……» 生成的短视频 (2s)
Малюнок 5. Коротке двосекундне відео, створене Арлоном на основі опису, “Туманні гори на сході сонця, при цьому сонце кидає тепле сяйво”.
多个模型根据文案 «У зачаровуючих підводному світі, школах тропічної риби, включаючи ангела, клоун та тангу, витончено дротять через воду …… 生成的视频对比 生成的视频对比 生成的视频对比 生成的视频对比
Малюнок 6. Порівняння довгих відеороликів із тридцяти секунд, породжених кількома моделями на основі опису, «в зачаровуючих підводному світі, школах тропічної риби, включаючи ангелі, клоун та танки, витонченими дартами через воду».

Арлон значно прискорює процес позначки моделі DIT, використовуючи приховані особливості AR як ефективну ініціалізацію. У той час як базова модель вимагає 30 кроків для позначення, Арлон досягає подібної продуктивності всього за 5 – 10 кроків.

Порівняння якості відео на різних етапах, що позначають
Малюнок 7. Порівняння якості відео на різних етапах позначення.

Крім того, Arlon підтримує довге генерацію відео за допомогою прогресивних текстових підказок, що дозволяє моделі генерувати відео на основі ряду поступово змінених текстових підказок, зберігаючи узгодженість відеоконтенту під час швидких переходів.

Арлон 与其他模型在渐进式文本长视频生成方面的对比
Малюнок 8. Порівняння Арлона з іншими моделями в прогресивному, текстовому, довгій генерації відео.
Арлон 根据渐进式多文本文案 “Вулкан, що вивергається, домінує на сцені …”” class=”wp-image-1121568″/>
Малюнок 9. Відео, створене Арлоном на основі прогресивних підказок для багатотексту, “величний спокійний вулкан піднімається в центрі”, і “Вулкан, що вивергається, домінує на сцені”.

Примітка: Арлон (Відкривається на новому вкладці) є дослідницьким проектом. Хоча це може синтезувати довгі відео з динамічними сценами, їх реалізм та природність залежать від таких факторів, як довжина, якість та контекст відеозаписів. Модель несе потенційні ризики неправильного використання, включаючи підробку відеоконтенту або видання конкретних сцен. У дослідженнях генерації відео застосовують модель до нових сценаріїв у реальному світі, вимагає угод з відповідними зацікавленими сторонами щодо використання відеоконтенту та інтеграції синтетичних моделей виявлення відео. Якщо ви підозрюєте, що Арлон зловживає, використовується незаконно або порушує свої права чи права інших, повідомте про це через портал звітування про зловживання Microsoft Microsoft Microsoft (Відкривається на новому вкладці).

Швидкий розвиток AI зробив надійні системи AI терміновим питанням. Microsoft вжила активних заходів, щоб передбачити та пом'якшити ризики, пов'язані з технологіями AI, і прагне сприяти розвитку ШІ відповідно до етичних принципів, орієнтованих на людину. У 2018 році Microsoft представила шість відповідальних принципів AI: справедливість, інклюзивність, надійність та безпека, прозорість, конфіденційність та безпека та підзвітність. Ці принципи згодом були формалізовані за відповідальними стандартами AI, що підтримуються рамкою управління, щоб забезпечити, щоб команди Microsoft інтегрували їх у свої щоденні робочі процеси. Microsoft продовжує співпрацювати з дослідниками та академічними установами по всьому світу для просування відповідальних практик та технологій ШІ.

Гаряче цього тижня

Школа та вибір школи привели цю сім’ю до Флориди

ДЖЕКСОНВІЛЛЬ, Флорида. Чотири роки тому Філ і Кеті Вотсон...

Теми

Школа та вибір школи привели цю сім’ю до Флориди

ДЖЕКСОНВІЛЛЬ, Флорида. Чотири роки тому Філ і Кеті Вотсон...

Tech Talk: ізраїльська компанія використовує ШІ для маркетингових кампаній

Tech Talk: Ізраїльська компанія використовує ШІ для маркетингових кампаній...

Міністр Кондапаллі Шрінівас наполягає на подвоєнні доходів фермерів | Новини Віджаявади

Вісакхапатнам: державний міністр MSME та SERP Кондапаллі Шрінівас закликав...