...
Субота, 1 Листопада, 2025
9.8 C
Kyiv

Мультимодальні моделі Frontier Multimodal для розуміння зображення та відео “

Videollama3 просуває мультимодальні моделі для розуміння зображення та відео, надаючи пріоритет, орієнтовану на зору навчання та дизайн рамок, досягаючи найсучасніших показників на різноманітних орієнтирах.

📌 Він відкидає тренінгу з грубим силою. Натомість він використовує високоякісні дані тексту зображення, адаптуючи кодер Vision для змінної роздільної здатності. Ця ефективна стратегія токенізації мінімізує надмірність, посилюючи динамічне розуміння контенту.

📌 Адаптація, орієнтована на зору моделі, уточнює мультимодальне вирівнювання. Замість того, щоб покладатися на галасливі дані відео-тексту, він оптимізує з'єднання на мові зору за допомогою кураторних пар-тексту, значно покращуючи як просторові, так і тимчасові міркування.

Compression Token у відео вибірково зберігає динамічний вміст, усуваючи надмірність. Це запобігає витраченим обчисленням на статичних рамках, що робить Videollama3 більш ефективним та ефективним у тимчасовому розумінні, ніж попередні моделі.

https://arxiv.org/abs/2501.13106

Оригінальна проблема 🤔:

→ Існуючі мультимодальні LLM показують прогрес у розумінні зображень.

→ Розуміння відео є більш складним завдяки тимчасовій складності та обмеженими високоякісними даними відео-тексту.

→ Відео моделі намагаються ефективно моделювати динамічний вміст та часові залежності.

Рішення в цій роботі 💡:

→ Videollama3 застосовує підхід, орієнтований на зору як для навчання, так і для дизайну рамок.

→ Він надає пріоритет високоякісних даних тексту зображення через масивні набори даних відео-тексту для попереднього навчання.

→ Етап адаптації кодера Vision дозволяє кодеру Vision обробляти змінні роздільної здатності зображення.

→ Етап вирівнювання на мові зору спільно налаштовує кодер Vision, проектор та LLM за допомогою масштабних даних тексту зображення.

→ Тонка налаштування багатозадачно включає дані тексту та текст відео-тексту для завдань нижче за течією та фондом розуміння відео.

→ Відеоцентрична стадія тонкої настройки ще більше розширює можливості розуміння відео.

→ Кодер Vision адаптований для кодування зображень змінної розміру у змінну кількість жетонів зору.

→ Для відео стиснення токенів зменшує надмірність, зосереджуючись на динамічному вмісті.

Ключові відомості з цієї роботи 🔑:

→ Високоякісні дані тексту зображення мають вирішальне значення для надійного розуміння зображення та відео.

→ Парадигма, орієнтована на зору, може ефективно покращити розуміння відео.

→ Адаптація кодерів Vision для динамічних роздільних місць та стиснення відеотоків покращує продуктивність та ефективність.

Результати 🏆:

→ Videollama3 досягає найсучаснішої вистави на орієнтирах зображень та відео.

→ Він перевершує попередні моделі з великим запасом розуміння діаграми та математичними задачами, пов'язаними з зором.

→ демонструє найсучаснішу ефективність у загальному відео, довгій відео та тимчасових міркувальних орієнтирах.

Гаряче цього тижня

Завжди заряджати телефон шкідливо для акумулятора? Apple, Samsung і Google беруть участь

Був час, коли користувачів смартфонів попереджали не залишати свої...

Adobe розширює GenStudio, щоб дозволити брендам створювати власні моделі ШІ для реклами

Adobe представила розширення свого пакету GenStudio на Adobe MAX...

Як працює агент ШІ з патентних досліджень, хто може використовувати

Замість складного пошуку патентів за ключовими словами, користувачі можуть...

Теми

Завжди заряджати телефон шкідливо для акумулятора? Apple, Samsung і Google беруть участь

Був час, коли користувачів смартфонів попереджали не залишати свої...

Як працює агент ШІ з патентних досліджень, хто може використовувати

Замість складного пошуку патентів за ключовими словами, користувачі можуть...

Рада малого бізнесу та підприємництва

Рієва Лесонскі – Минулого тижня ми обговорювали, як споживачі планують...

Створення брендів за допомогою пошукової видимості та стратегії

ПРЕС-РЕЛІЗОпубліковано 30 жовтня 2025 рSEO-агентство в Сінгапурі: просуйте свій...