Videollama3 просуває мультимодальні моделі для розуміння зображення та відео, надаючи пріоритет, орієнтовану на зору навчання та дизайн рамок, досягаючи найсучасніших показників на різноманітних орієнтирах.
📌 Він відкидає тренінгу з грубим силою. Натомість він використовує високоякісні дані тексту зображення, адаптуючи кодер Vision для змінної роздільної здатності. Ця ефективна стратегія токенізації мінімізує надмірність, посилюючи динамічне розуміння контенту.
📌 Адаптація, орієнтована на зору моделі, уточнює мультимодальне вирівнювання. Замість того, щоб покладатися на галасливі дані відео-тексту, він оптимізує з'єднання на мові зору за допомогою кураторних пар-тексту, значно покращуючи як просторові, так і тимчасові міркування.
Compression Token у відео вибірково зберігає динамічний вміст, усуваючи надмірність. Це запобігає витраченим обчисленням на статичних рамках, що робить Videollama3 більш ефективним та ефективним у тимчасовому розумінні, ніж попередні моделі.
https://arxiv.org/abs/2501.13106
Оригінальна проблема 🤔:
→ Існуючі мультимодальні LLM показують прогрес у розумінні зображень.
→ Розуміння відео є більш складним завдяки тимчасовій складності та обмеженими високоякісними даними відео-тексту.
→ Відео моделі намагаються ефективно моделювати динамічний вміст та часові залежності.
Рішення в цій роботі 💡:
→ Videollama3 застосовує підхід, орієнтований на зору як для навчання, так і для дизайну рамок.
→ Він надає пріоритет високоякісних даних тексту зображення через масивні набори даних відео-тексту для попереднього навчання.
→ Етап адаптації кодера Vision дозволяє кодеру Vision обробляти змінні роздільної здатності зображення.
→ Етап вирівнювання на мові зору спільно налаштовує кодер Vision, проектор та LLM за допомогою масштабних даних тексту зображення.
→ Тонка налаштування багатозадачно включає дані тексту та текст відео-тексту для завдань нижче за течією та фондом розуміння відео.
→ Відеоцентрична стадія тонкої настройки ще більше розширює можливості розуміння відео.
→ Кодер Vision адаптований для кодування зображень змінної розміру у змінну кількість жетонів зору.
→ Для відео стиснення токенів зменшує надмірність, зосереджуючись на динамічному вмісті.
Ключові відомості з цієї роботи 🔑:
→ Високоякісні дані тексту зображення мають вирішальне значення для надійного розуміння зображення та відео.
→ Парадигма, орієнтована на зору, може ефективно покращити розуміння відео.
→ Адаптація кодерів Vision для динамічних роздільних місць та стиснення відеотоків покращує продуктивність та ефективність.
Результати 🏆:
→ Videollama3 досягає найсучаснішої вистави на орієнтирах зображень та відео.
→ Він перевершує попередні моделі з великим запасом розуміння діаграми та математичними задачами, пов'язаними з зором.
→ демонструє найсучаснішу ефективність у загальному відео, довгій відео та тимчасових міркувальних орієнтирах.
