Анотація
Плоскі мінімуми, які, як відомо, підвищують узагальнення та стійкість у контрольованому навчанні, залишаються в основному недослідженими в генеративних моделях. У цій роботі ми систематично досліджуємо роль площинності поверхні втрат у генеративних моделях, як теоретично, так і емпірично, з особливим акцентом на моделях дифузії. Ми встановлюємо теоретичне твердження, що більш плоскі мінімуми покращують стійкість проти збурень у цільових попередніх розподілах, що призводить до таких переваг, як зменшення зміщення експозиції, коли помилки в оцінці шуму накопичуються протягом ітерацій, і значно покращена стійкість до квантування моделі, зберігаючи генеративну продуктивність навіть за сильних обмежень квантування. Крім того, ми спостерігаємо, що мінімізація з урахуванням різкості (SAM), яка явно контролює ступінь площинності, ефективно підвищує площинність у дифузійних моделях, навіть перевершуючи методи опосередкованого сприяння площинності — Input Perturbation (IP), який забезпечує виконання умови Ліпшица, підхід на основі ансамблю, як-от стохастичне вагове усереднення (SWA) та експоненціальне ковзне середнє (EMA), — менш ефективні. Завдяки широким експериментам на CIFAR-10, LSUN Tower і FFHQ ми демонструємо, що плоскі мінімуми в моделях дифузії справді покращують не лише генеративну продуктивність, але й надійність.
Коли користувачі просять ChatGPT згенерувати зображення в стилі Ghibli, фактичне зображення створюється за допомогою DALL·E, інструменту на основі моделей дифузії. Незважаючи на те, що ці моделі створюють приголомшливі зображення, наприклад перетворюючи фотографії на художні стилі, створюючи персоналізованих персонажів або відтворюючи реалістичні пейзажі, вони також стикаються з певними обмеженнями. До них належать випадкові помилки, як-от трипальці на руках чи спотворені обличчя, а також проблеми під час роботи на пристроях з обмеженими обчислювальними ресурсами, як-от смартфони, через їхню величезну кількість параметрів.
Дослідницька група, спільно очолювана професорами Джеджун Ю та Сон Ван Юн з Вищої школи штучного інтелекту UNIST при UNIST, запропонувала новий принцип проектування для генеративного ШІ, який вирішує ці проблеми. Вони показали як за допомогою теоретичного аналізу, так і широких експериментів, що навчання дифузійних моделей для досягнення «плоских мінімумів» — певного типу оптимальної точки на поверхні втрат — може одночасно покращити надійність і здатність до узагальнення цих моделей.
Моделі дифузії широко використовуються в популярних програмах штучного інтелекту, включаючи такі інструменти, як DALL·E і Stable Diffusion, що дозволяє виконувати ряд завдань від передачі стилю та створення мультфільму до реалістичного відтворення сцени. Однак розгортання цих моделей часто призводить до проблем, таких як накопичення помилок під час коротких циклів генерації, зниження продуктивності після методів стиснення моделі, таких як квантування, і вразливості до агресивних атак – невеликих зловмисних збурень введення, спрямованих на оману моделей.
Дослідницька група визначила, що ці проблеми виникають через фундаментальні обмеження здатності моделей до узагальнення, що означає їх здатність надійно працювати з новими, невидимими даними або в незнайомому середовищі.

Щоб вирішити цю проблему, дослідницька група запропонувала спрямувати процес навчання на «плоскі мінімуми» — регіони в ландшафті втрат моделі, що характеризується широкими пологими поверхнями. Такі мінімуми допомагають моделі підтримувати стабільну та надійну роботу, незважаючи на невеликі перешкоди або шум. І навпаки, «різкі мінімуми» — вузькі, круті долини — мають тенденцію спричиняти погіршення продуктивності, коли стикаються з варіаціями чи атаками.
Серед різноманітних алгоритмів, розроблених для пошуку плоских мінімумів, команда визначила мінімізацію з урахуванням різкості (SAM) як найефективнішу. Моделі, навчені за допомогою SAM, продемонстрували зменшення накопичення помилок під час завдань швидкої генерації, підтримували високу якість результатів після стиснення та демонстрували семикратне підвищення стійкості до агресивних атак, що значно підвищило їх надійність.
У той час як попередні дослідження окремо розглядали такі проблеми, як накопичення помилок, помилки квантування та конкурентні вразливості, це дослідження показує, що зосередження на плоских мінімумах пропонує єдине та фундаментальне рішення для всіх цих проблем.
Дослідники підкреслюють, що їхні висновки виходять за рамки простого покращення якості зображення. Вони забезпечують фундаментальну основу для розробки надійних, універсальних генеративних систем ШІ, які можна ефективно застосовувати в різних галузях промисловості та в реальних сценаріях. Крім того, цей підхід може прокласти шлях для більш ефективного навчання великомасштабних моделей, таких як ChatGPT, навіть з обмеженими даними.
Дослідження проводили перші автори Техван Лі та Кьонгук Со з UNIST. Їх висновки були прийняті для презентації на 2025 International Conference on Computer Vision (ICCV), одному з найпрестижніших форумів у галузі досліджень штучного інтелекту, який проходив на Гаваях з 19 по 23 жовтня 2025 року.
Це дослідження було підтримано Міністерством науки та ІКТ Кореї (MSIT), Національним дослідницьким фондом (NRF), Інститутом планування та оцінки інформаційно-комунікаційних технологій та UNIST.
Довідка журналу
Техван Лі, Кьонгук Со, Джеджун Ю та Сон Ван Юн, «Розуміння площинності в генеративних моделях: її роль і переваги», ICCV '25, (2025).
/Публічний реліз. Цей матеріал від організації/автора(ів)-початківця може мати характер на певний момент часу та відредагований для ясності, стилю та обсягу. Mirage.News не займає інституційні позиції чи сторони, і всі погляди, позиції та висновки, висловлені в цьому документі, належать виключно авторам (авторам). Повністю дивіться тут.
