Компанія Meta Platforms Inc. випустила дві моделі штучного інтелекту, які можна використовувати для створення анімації руху та водяних знаків відео.
Алгоритми Motivo і Video Seal стали доступними в четвер. Батьківська компанія Facebook також представила дві внутрішньо розроблені архітектури нейронних мереж. Одну з них, технологію під назвою LCM, рекламують як новий підхід до створення великих мовних моделей.
Motivo, перша модель штучного інтелекту, яку випустила Meta, можна використовувати для анімації тривимірних аватарів, які часто зустрічаються в програмах віртуальної реальності. Модель рендерить рухи аватара на основі описів, наданих користувачем. Він також може змінити позу аватара: користувач може, наприклад, наказати Motivo поставити стоячий аватар сидіти або навпаки.
Модель автоматично адаптує анімацію до змін конфігурації. Наприклад, це може змінити спосіб переміщення аватара, якщо користувач додає вітру у віртуальне середовище, у якому встановлено аватар.
Зазвичай моделі штучного інтелекту, орієнтовані на візуалізацію, потрібно оптимізувати для кожного конкретного типу руху, для створення якого вони використовують. Це тонке налаштування вимагає значних ресурсів. Meta каже, що Motivo не вимагає такого тонкого налаштування, але забезпечує таку ж якість виведення, як алгоритми, оптимізовані для відтворення певних рухів.
Головним нововведенням у моделі є спосіб отримання даних. Motivo кодує інформацію про рухи та поточний стан аватара в єдиний прихований простір, математичну структуру, яку моделі ШІ використовують для зберігання своїх знань. Прихований простір також містить нагороди, точки даних, які використовуються для керування процесом навчання ШІ.
Meta є одним із головних гравців на ринку гарнітур віртуальної реальності. Компанія вважає, що Motivo може допомогти покращити якість аватарів VR та іншого захоплюючого контенту. «Ми вважаємо, що це дослідження може прокласти шлях до повністю втілених агентів у Метавсесвіті, що призведе до більш реалістичних NPC, демократизації анімації персонажів і нових типів ефекту занурення», — пишуть дослідники компанії в публікація в блозі.
Motivo випустила Motivo разом із Video Seal, інструментом машинного навчання для створення водяних знаків на відео, згенерованих штучним інтелектом. Водяні знаки, створені програмним забезпеченням, невидимі для людського ока. Відповідно до Meta, їх не можна видалити за допомогою звичайних методів редагування, таких як розмиття та обрізання або стиснення кліпу.
Компанія раніше звільнений аналогічний інструмент водяних знаків для аудіофайлів. Раніше лабораторія Google DeepMind компанії Alphabet Inc введено технологія під назвою SynthID для ідентифікації зображень, створених ШІ. Як і Video Seal, SynthID створює невидимі водяні знаки, які важко видалити.
Meta випустила дві нові моделі ШІ разом із парою дослідницьких статей. Вони описують дві внутрішньо розроблені архітектури для створення нейронних мереж.
Перша технологія, Flow Matching, розроблена для роботи моделей штучного інтелекту, які генерують мультимедійний вміст, наприклад відео. Він позиціонується як альтернатива дифузійній архітектурі, яка забезпечує більшість алгоритмів створення відео. Meta вже реалізувала Flow Matching у кількох своїх генеративних інструментах штучного інтелекту, орієнтованих на споживачів.
«Flow Matching — це найсучасніша генеративна парадигма для багатьох модальностей, включаючи генерацію зображень, відео, аудіо, музики, 3D-структур, таких як білки, тощо», — розповіли дослідники компанії.
Інша нова архітектура штучного інтелекту Meta називається LCP, що є скороченням від Large Concept Model. Він розроблений для забезпечення великих мовних моделей.
LLM зазвичай генерують речення по одному фрагменту слова або лексемі за раз. Моделі на базі архітектури Meta LCP мають інший підхід. «Замість того, щоб передбачати наступний токен, LCM навчений передбачати наступну концепцію або ідею високого рівня, представлену повним реченням», — розповів Мета. «Загалом LCM перевершує або зрівняється з останніми LLM у чисто генеративному завданні підсумовування».
Зображення: мета
Ваш голос підтримки важливий для нас, і це допомагає нам залишати вміст БЕЗКОШТОВНИМ.
Один клік нижче підтримує нашу місію надавати безкоштовний, глибокий і відповідний вміст.
Приєднуйтесь до нашої спільноти на YouTube
Приєднуйтесь до спільноти, до якої входять понад 15 000 експертів #CubeAlumni, зокрема генеральний директор Amazon.com Енді Джессі, засновник і генеральний директор Dell Technologies Майкл Делл, генеральний директор Intel Пет Гелсінгер та багато інших світил і експертів.
ДЯКУЮ