Зростаючий попит на додатки для комп'ютерного зору, які сильно покладаються на зображення та відеозаписи, створює потребу в ефективних методах стиснення, спеціально підібраних до цих завдань. Hyomin Choi з Міжсигіталу, Хееджі Хан з Національного університету Ханбата, Кріс Роусварн з Canon та Fabien Racapé з міждіталістської адреси цього виклику, вводячи Compressai-Vision, нову програмну платформу з відкритим кодом, розроблену для суворої оцінки методів компресії для комп'ютерного зору. Ця платформа забезпечує стандартизоване середовище для тестування, наскільки добре різні інструменти стиснення зберігають точність завдань зору, враховуючи як локальні, так і віддалені сценарії обробки. Пропонуючи спільну підставу для порівняння, Compressai-Vision прискорює розробку оптимізованих технологій стиснення і вже здобув визнання завдяки його прийняттю групою експертів Moving Pictures для розробки нового кодування функцій для стандартів машин, обіцяючи значні досягнення в ефективному обробці візуальних даних.
Завдання SION, пов'язані моделі нейронної мережі та набори даних, консолідована платформа потрібна як загальна підстава для впровадження та оцінки методів стиснення, оптимізованих для завдань зору вниз за течією. Compressai-Vision впроваджується як комплексна платформа оцінювання, де нові інструменти кодування конкурують з ефективним стисненням введення мереж Vision, зберігаючи точність завдань у контексті двох різних сценаріїв висновку: “віддалений” та “розділити” інференції. Ця платформа оцінювання має.
Оцінка машинного навчання, орієнтована на стиснення відео
Це дослідження представляє Compressai-Vision, рамку з відкритим кодом, розроблену для оцінки методів стиснення відео, спеціально для програм машинного навчання, які часто називають відео-кодуванням для машин. Він вирішує критичну потребу ефективно стиснути відеоканчини, зберігаючи інформацію, необхідну для завдань штучного інтелекту, таких як виявлення об'єктів, оцінка поставок та відстеження. Традиційні показники стиснення відео не точно відображають продуктивність у цих моделях AI, що потребує нового підходу до оцінки. Основні внески та функції включають: * Зосередження уваги на продуктивності машинного навчання: Compressai-Vision виходить за рамки традиційних показників, безпосередньо вимірюючи вплив стиснення на точність моделей AI.
Він інтегрується з популярними рамками AI, такими як Detectron2, MMPOSE та іншими, для оцінки ефективності після стиснення та декомпресії. * Комплексна підтримка наборів даних: Фреймворк підтримує різноманітні набори даних, які зазвичай використовуються в машинному навчанні, включаючи OpenImages, Flir Thermal Datalsets, SFU-HW-Objects, Tencent Video DataSet (TVD) та людські в заходах. * Інтеграція з рамками AI: вона безперешкодно інтегрується з популярними рамками AI, такими як Detectron2, MMPOSE, YOLO та інших, що дозволяє оцінювати стиснуті відео дані. * Відкритий код та розширення: Будучи відкритим кодом, Compressai-Vision заохочує внески спільноти та дозволяє легко налаштувати та розширювати для підтримки нових наборів даних, моделей AI та методи стиснення.
- Підтримка сучасних відео -кодеків: Рамка може бути використана для оцінки різних відео -кодеків, включаючи H. 264, H. 265, H. 266 та, можливо, інші. * Загальні умови тестування: Дослідження встановлює загальні умови тестування для кодування відео для машин, забезпечуючи справедливі та відтворювані результати оцінки.
Метод передбачає стиснення відео даних із обраним кодеком, декомпресування його, а потім подання їх у модель AI для вимірювання продуктивності. Ця рамка має вирішальне значення для розробки та оцінки методів стиснення відео, оптимізованих для програм машинного навчання. Він подолає розрив між традиційним стисненням відео та вимогами ШІ, що забезпечує більш ефективний та ефективний відео -аналіз у таких сферах, як автономне водіння, робототехніка та спостереження. Compressai-Vision-це цінний інструмент для дослідників та розробників, що забезпечує стандартизовану та всебічну платформу для оцінки та порівняння різних методів стиснення.
Compressai-Vision оцінює відео-кодування для комп'ютерного зору
Вчені розробили Compressai-Vision, комплексну платформу оцінювання, розроблену для оцінки методів стиснення відео, спеціально для завдань комп'ютерного зору. Робота демонструє можливості платформи шляхом широкого тестування за допомогою стандартних кодеків та різних наборів даних. Експерименти демонструють значні прибутки від стиснення за допомогою FCTM V6.
1 кодек проти VCM-RS V0. 12 кодек у декількох наборах даних. Для набору даних SFU-HW-OBJ FCTM досяг економії бітрейтів 79. 35% та 69. 02% для класу C та класу D відповідно, зберігаючи еквівалентну точність завдань.
В середньому FCTM знизив бітрейт на -58. 33%, -41. 43%і -72. 70% під випадковим доступом, низькою затримкою та конфігураціями All-Intra відповідно порівняно з результатами VCM-RS. І навпаки, оцінюючи VCM-RS під FCM CTTC, команда виявила його, а FCTM істотно перевершила інші методи на наборі даних TVD, досягаючи майже безглуздої точності при більш високому бітрейаті.
Подальший аналіз показав, що за допомогою VTM-23. 3 як внутрішній кодек для FCTM V6. 1 забезпечив чудову продуктивність порівняно з використанням JM-19. 1 або HM-18. 0. Ці результати демонструють здатність Compressai-Vision послідовно оцінювати ефективність кодування в різних конфігураціях внутрішнього кодеку та неоднорідних трубопроводів. Платформа готова підтримувати передові архітектури трансформаторів зору та мереж багатозадачних, що дозволяє вивчити вплив шуму стиснення на вбудовувані простори та оптимізацію методів кодування для різних завдань.
Оцінка стиснення для завдань комп'ютерного зору
Compressai-Vision є значним прогресом при оцінці методів стиснення відео, спеціально для додатків для комп'ютерного зору. Дослідники розробили комплексну платформу, що дозволяє порівняльному аналізу інструментів кодування, зберігаючи точність у завдань зору вниз за течією, оціненими як за допомогою віддалених, так і розподілених сценаріїв висновку. Платформа сприяє детальному вивченню точністю бітів проти завдань у різних наборах даних, пропонуючи цінну інформацію про компроміси між ефективністю стиснення та ефективністю. Природ відкритого коду Compressai-Vision забезпечує масштабованість та заохочує внески від широкої дослідницької спільноти, сприяючи постійному розвитку та інноваціях. Автори визнають, що в даний час платформа зосереджується на конволюційних нейронних мережах і планує розширення підтримки архітектур бачення трансформаторів, що дозволяє дослідити вплив шуму стиснення на вбудовування просторів. Майбутня робота також має намір вивчити багатозадачні мережі для оптимізації методів кодування для паралельної обробки різних завдань машинного зору.
👉 Більше інформації
🗞 Compressai-Vision: Програмне забезпечення з відкритим кодом для оцінки методів стиснення для завдань комп'ютерного зору
🧠 arxiv: https://arxiv.org/abs/2509.20777