...
П’ятниця, 31 Жовтня, 2025
8.2 C
Kyiv

Mobile-Agent-E: ієрархічна багатоагентна структура, що поєднує когнітивну науку та штучний інтелект для перевизначення обробки складних завдань на смартфонах

Смартфони є необхідними інструментами в повсякденному житті. Однак складність завдань на мобільних пристроях часто призводить до розчарування та неефективності. Навігація програмами та керування багатоетапними процесами забирає час і зусилля. Удосконалення штучного інтелекту запровадили великі мультимодальні моделі (LMM), які дозволяють мобільним помічникам виконувати складні операції автономно. Хоча ці інновації спрямовані на спрощення технології, вони часто не відповідають практичним вимогам. Щоб усунути ці прогалини, потрібні передові можливості ШІ та адаптовані системи.

Сучасним мобільним помічникам важко справлятися зі складними завданнями, які вимагають тривалого планування, міркувань і адаптації. Такі завдання, як створення маршрутів або порівняння цін, включають кілька кроків на різних платформах. Ці системи розглядають кожне завдання як ізольоване, не маючи можливості вчитися на досвіді або оптимізувати продуктивність для повторюваних завдань, що призводить до неефективності. Крім того, розподіл ідентичних ресурсів для всіх завдань, незалежно від їх складності, знижує ефективність у складних сценаріях.

Деякі структури вирішують ці проблеми, але залишаються обмеженими в плануванні та прийнятті рішень. Сучасні мобільні агенти, такі як AppAgent і Mobile-Agent-v1, зосереджені на коротких, попередньо визначених завданнях. Системи на кшталт Mobile-Agent-v2, незважаючи на вдосконалене планування, не можуть включити ієрархічну структуру для ефективного делегування та вдосконалення завдань. Ці обмеження підкреслюють потребу в більш просунутих конструкціях мобільних помічників.

Дослідники з Іллінойського університету Урбана-Шампейн і Alibaba Group розробили Mobile-Agent-Eновий мобільний помічник, який вирішує ці проблеми за допомогою ієрархічної багатоагентної структури. У системі є менеджер-агент, відповідальний за планування та розподіл завдань на підцілі, який підтримується чотирма підлеглими агентами: Перцептор, оператор, відбивач дій і записник. Ці агенти спеціалізуються на візуальному сприйнятті, негайному виконанні дій, перевірці помилок і агрегації інформації. Особливістю Mobile-Agent-E є його модуль саморозвитку, який включає систему довготривалої пам’яті. Ця пам'ять ділиться на два компоненти:

  1. Підказки, що містять узагальнені вказівки на основі попередніх завдань
  2. Ярлики, які є багаторазово використовуваними послідовностями операцій, адаптованими до конкретних повторюваних підпрограм

Mobile-Agent-E працює, постійно вдосконалюючи свою продуктивність через цикли зворотного зв’язку. Після виконання кожного завдання системні рефлектори досвіду оновлюють підказки та пропонують нові ярлики на основі історії взаємодії. Ці оновлення створені під впливом когнітивних процесів людини, де епізодична пам’ять інформує майбутні рішення, а процедурні знання сприяють ефективному виконанню завдань. Наприклад, якщо користувач часто виконує послідовність дій, таких як пошук місця та створення нотатки, система створює ярлик, щоб спростити цей процес у майбутньому. Mobile-Agent-E збалансовує планування високого рівня та точність дій низького рівня, включаючи ці знання у свою ієрархічну структуру.

Продуктивність Mobile-Agent-E перевірено за допомогою нового тесту під назвою Mobile-Eval-Eякий оцінює здатність системи справлятися зі складними реальними завданнями. Порівняно з існуючими моделями, Mobile-Agent-E досягає значно вищих показників задоволеності, із збільшенням на 15% показників виконання завдань. Крім того, удосконалені підказки та ярлики зменшують витрати на обчислення, дозволяючи швидше виконувати завдання без шкоди для точності. Наприклад, один ярлик, який об’єднує такі дії, як «Торкніться», «Введіть» і «Введіть» може заощадити дві ітерації прийняття рішень, покращуючи ефективність. Ієрархічна конструкція системи покращує відновлення помилок, дозволяючи їй адаптуватися до непередбачених проблем під час виконання завдання.

Основні висновки цього дослідження включають наступне:

  1. Mobile-Agent-E має агент-менеджер, який підтримується чотирма спеціалізованими підлеглими агентами, що забезпечує ефективне делегування та виконання завдань.
  2. Система постійно оновлює свої підказки та ярлики, натхненні когнітивними процесами людини, щоб покращити продуктивність і зменшити надлишкові помилки.
  3. Ярлики зменшують накладні витрати на обчислення, що призводить до швидшого виконання завдань із меншими ресурсами. Наприклад, час виконання завдань зменшився на 20% порівняно з попередніми моделями.
  4. Mobile-Agent-E досяг 15% підвищення оцінки задоволеності порівняно з найсучаснішими моделями, демонструючи свою ефективність у реальних програмах.
  5. Можливості системи поширюються на різні сценарії, такі як планування маршрутів, керування нотатками та порівняння цін у різних програмах, демонструючи її універсальність і адаптивність.

Підсумовуючи, Mobile-Agent-E усуває розрив між потребами користувачів і технологічними можливостями, вирішуючи важливі проблеми в управлінні завданнями, плануванні та прийнятті рішень. Його ієрархічна структура та можливості саморозвитку підвищують ефективність і встановлюють новий стандарт для інтелектуальних мобільних помічників. Це дослідження підкреслює потенціал рішень на основі штучного інтелекту для трансформації взаємодії людини та пристрою, роблячи технології більш доступними та інтуїтивно зрозумілими для всіх користувачів.


Виїзд Стаття, сторінка GitHub і сторінка проекту. Вся заслуга в цьому дослідженні належить дослідникам цього проекту. Крім того, не забувайте слідкувати за нами Twitter і приєднайтеся до нашого Телеграм канал і LinkedIn грвгору. Не забудьте приєднатися до нашого 70k+ ML SubReddit.

🚨 [Recommended Read] Nebius AI Studio розширюється за допомогою моделей бачення, нових мовних моделей, вбудовувань і LoRA (підвищено)


Асіф Раззак є генеральним директором Marktechpost Media Inc. Як далекоглядний підприємець та інженер, Асіф прагне використовувати потенціал штучного інтелекту для суспільного блага. Його останньою ініціативою є запуск медіа-платформи штучного інтелекту Marktechpost, яка виділяється своїм глибоким висвітленням новин про машинне навчання та глибоке навчання, які є технічно надійними та легко зрозумілими широкій аудиторії. Платформа може похвалитися понад 2 мільйонами переглядів на місяць, що свідчить про її популярність серед аудиторії.

📄 Зустрічайте «Height»: єдиний автономний інструмент управління проектами (спонсорований)

Гаряче цього тижня

Рада малого бізнесу та підприємництва

Рієва Лесонскі – Минулого тижня ми обговорювали, як споживачі планують...

Nation Media покращує стратегію SEO за допомогою Nation Media Dashboard FX для пошукового домінування епохи штучного інтелекту

ПРЕС-РЕЛІЗОпубліковано 30 жовтня 2025 рNation Media революціонізує стратегію SEO...

Створення брендів за допомогою пошукової видимості та стратегії

ПРЕС-РЕЛІЗОпубліковано 30 жовтня 2025 рSEO-агентство в Сінгапурі: просуйте свій...

Маркетинговий момент AWS: від масштабу до стійкості

Минулого тижня хребет Інтернету похитнувся. Регіон US-East-1 Amazon Web Services...

Теми

Рада малого бізнесу та підприємництва

Рієва Лесонскі – Минулого тижня ми обговорювали, як споживачі планують...

Створення брендів за допомогою пошукової видимості та стратегії

ПРЕС-РЕЛІЗОпубліковано 30 жовтня 2025 рSEO-агентство в Сінгапурі: просуйте свій...

Маркетинговий момент AWS: від масштабу до стійкості

Минулого тижня хребет Інтернету похитнувся. Регіон US-East-1 Amazon Web Services...

Проста мова, яка підтримує ШІ та аналіз даних

Regex — це потужний, але забутий інструмент для пошуку...