...
Неділя, 9 Листопада, 2025
8.2 C
Kyiv

Мультимодальні моделі Frontier Multimodal для розуміння зображення та відео “

Videollama3 просуває мультимодальні моделі для розуміння зображення та відео, надаючи пріоритет, орієнтовану на зору навчання та дизайн рамок, досягаючи найсучасніших показників на різноманітних орієнтирах.

📌 Він відкидає тренінгу з грубим силою. Натомість він використовує високоякісні дані тексту зображення, адаптуючи кодер Vision для змінної роздільної здатності. Ця ефективна стратегія токенізації мінімізує надмірність, посилюючи динамічне розуміння контенту.

📌 Адаптація, орієнтована на зору моделі, уточнює мультимодальне вирівнювання. Замість того, щоб покладатися на галасливі дані відео-тексту, він оптимізує з'єднання на мові зору за допомогою кураторних пар-тексту, значно покращуючи як просторові, так і тимчасові міркування.

Compression Token у відео вибірково зберігає динамічний вміст, усуваючи надмірність. Це запобігає витраченим обчисленням на статичних рамках, що робить Videollama3 більш ефективним та ефективним у тимчасовому розумінні, ніж попередні моделі.

https://arxiv.org/abs/2501.13106

Оригінальна проблема 🤔:

→ Існуючі мультимодальні LLM показують прогрес у розумінні зображень.

→ Розуміння відео є більш складним завдяки тимчасовій складності та обмеженими високоякісними даними відео-тексту.

→ Відео моделі намагаються ефективно моделювати динамічний вміст та часові залежності.

Рішення в цій роботі 💡:

→ Videollama3 застосовує підхід, орієнтований на зору як для навчання, так і для дизайну рамок.

→ Він надає пріоритет високоякісних даних тексту зображення через масивні набори даних відео-тексту для попереднього навчання.

→ Етап адаптації кодера Vision дозволяє кодеру Vision обробляти змінні роздільної здатності зображення.

→ Етап вирівнювання на мові зору спільно налаштовує кодер Vision, проектор та LLM за допомогою масштабних даних тексту зображення.

→ Тонка налаштування багатозадачно включає дані тексту та текст відео-тексту для завдань нижче за течією та фондом розуміння відео.

→ Відеоцентрична стадія тонкої настройки ще більше розширює можливості розуміння відео.

→ Кодер Vision адаптований для кодування зображень змінної розміру у змінну кількість жетонів зору.

→ Для відео стиснення токенів зменшує надмірність, зосереджуючись на динамічному вмісті.

Ключові відомості з цієї роботи 🔑:

→ Високоякісні дані тексту зображення мають вирішальне значення для надійного розуміння зображення та відео.

→ Парадигма, орієнтована на зору, може ефективно покращити розуміння відео.

→ Адаптація кодерів Vision для динамічних роздільних місць та стиснення відеотоків покращує продуктивність та ефективність.

Результати 🏆:

→ Videollama3 досягає найсучаснішої вистави на орієнтирах зображень та відео.

→ Він перевершує попередні моделі з великим запасом розуміння діаграми та математичними задачами, пов'язаними з зором.

→ демонструє найсучаснішу ефективність у загальному відео, довгій відео та тимчасових міркувальних орієнтирах.

Гаряче цього тижня

Теми

Нагорода Netty Awards у центрі уваги найкращих цифрових агентств Сінгапуру

Провідні цифрові агенції Сінгапуру не просто конкурують у всьому...

Google Finance запускає AI Deep Search і Market Predictions

Google Finance має намір покращити свою платформу за допомогою...

Новини про дату випуску, час, деталі трансляції тощо

Остання K-драма Кім Ю Чжуна, Шановний Xпродовжує захоплювати шанувальників...