...
Понеділок, 12 Травня, 2025
7.1 C
Kyiv

Lighton AI випустив GTE-Moderncolbert-V1: Масштабована семантична модель пошуку на рівні токен

Семантичне пошук фокусується на розумінні сенсу тексту, а не на відповідності ключових слів, що дозволяє системам надавати результати, які відповідають наміром користувача. Ця здатність є важливою для усього доменів, які залежать від масштабного пошуку інформації, таких як наукові дослідження, юридичний аналіз та цифрові помічники. Традиційні методи, засновані на ключових слів, не зможуть захопити нюанс людської мови, часто отримуючи невідповідні або неточні результати. Сучасні підходи покладаються на перетворення тексту у високомірні векторні уявлення, що забезпечує більш значущі порівняння між запитими та документами. Ці вбудовування мають на меті зберегти семантичні відносини та забезпечити більш контекстно актуальні результати під час пошуку.

Серед багатьох головним викликом у семантичному пошуку є ефективне поводження з довгими документами та складними запитами. Багато моделей обмежені вікнами маркера з фіксованою довжиною, зазвичай близько 512 або 1024 жетонів, що обмежує їх додаток у областях, які потребують обробки статей повної довжини або багатопараграфських документів. Як результат, вирішальна інформація, яка з'являється пізніше в документі, може бути ігнорована або усічена. Крім того, продуктивність у режимі реального часу часто порушується через обчислювальну вартість вбудовування та порівняння великих документів, особливо при індексації та запитах повинно відбуватися в масштабах. Масштабованість, точність та узагальнення до небачених даних залишаються постійними проблемами при розгортанні цих моделей у динамічних умовах.

У попередніх дослідженнях такі моделі, як Modernbert та інші інструменти, засновані на реченні, домінували на семантичному вбудовуваному просторі. Вони часто використовують середнє об'єднання або прості методи агрегації для створення векторів речення над контекстними вбудовуваннями. Хоча такі методи працюють для коротких та помірних документів довжиною, вони намагаються підтримувати точність, коли стикаються з більш тривалими вхідними послідовностями. Ці моделі також покладаються на щільні векторні порівняння, які стають обчислювально дорогими при обробці мільйонів документів. Крім того, незважаючи на те, що вони добре працюють на стандартних орієнтирах, таких як пані Марко, вони демонструють зменшення узагальнення до різноманітних наборів даних, а також налаштовують на конкретні контексти.

Дослідники з Lighton AI представили GTE-Moderncolbert-V1. Ця модель ґрунтується на архітектурі Колберта, інтегруючи Фонд Modernbert, розроблений Alibaba-NLP. Відгнічуючи знання з базової моделі та оптимізуючи її на наборі даних MS Marco, команда мала на меті подолати обмеження, пов'язані з довжиною контексту та семантичним збереженням. Модель навчалася з використанням 300 входів документів, але продемонструвала здатність обробляти входи до 8192 жетонів. Це робить його придатним для індексації та отримання довших документів з мінімальними втратами інформації. Їх робота була розгорнута за допомогою Pylate, бібліотеки, яка спрощує індексацію та запит документів за допомогою щільних векторних моделей. Модель підтримує семантичне узгодження на рівні токенів за допомогою оператора MAXSIM, який оцінює подібність між індивідуальними вбудовуваннями токенів, а не стисканням їх в один вектор.

GTE-Moderncolbert-V1 перетворює текст у 128-мірні щільні вектори та використовує функцію MAXSIM для обчислення семантичної подібності між запитами та документами. Цей метод зберігає зернистий контекст і дозволяє тонко налаштувати пошук. Він інтегрується з системою індексації Voyager Pylate, яка керує масштабними вбудовуваннями за допомогою ефективного індексу HNSW (ієрархічного судноплавного малого світу). Після того, як документи будуть вбудовані та зберігаються, користувачі можуть отримати відповідні документи Top-K за допомогою Retriever Colbert. Процес підтримує повну індексацію трубопроводів та легку повторну речовину для систем пошуку першого етапу. Pylate забезпечує гнучкість у зміні довжини документа під час висновку, що дозволяє користувачам обробляти тексти набагато довше, ніж модель спочатку навчалася, перевага рідко спостерігається в стандартних моделях вбудовування.

На наборі даних наноклімату модель досягла точності максимуму@1 0,360, точність@5 від 0,780 та точність@10 0,860. Оцінки точності та відкликання були послідовними, при цьому Maxsim@3 досягнув 0,289 та точність@3 при 0,233. Ці бали відображають здатність моделі отримувати точні результати навіть у сценаріях пошуку більш довгого контексту. Оцінюючи на базі Beir, GTE-Moderncolbert перевершив попередні моделі, включаючи Colbert-Small. Наприклад, він набрав 54,89 на наборі даних FIQA2018, 48,51 на NFCorpus та 83,59 на завдання Trec-Covid. Середня ефективність у цих завданнях була значно вищою, ніж базові варіанти Колберта. Зокрема, у Longembed еталон модель набрала 88,39 середньої оцінки та 78,82 у пошуку QA розповіді LEMB, перевершивши інші провідні моделі, такі як Mo-Multilingual-2 (79,17) та BGE-M3 (58,73).

Ці результати говорять про те, що модель пропонує надійне узагальнення та ефективне поводження з довгим контекстом документів, що перевищує багато сучасників майже на 10 балів на завданні довгого контексту. Він також дуже пристосований до різних трубопроводів для пошуку, що підтримує індексацію та реалізацію повторних речовин. Така універсальність робить його привабливим рішенням для масштабованого семантичного пошуку.

Кілька ключових моментів дослідження GTE-Moderncolbert-V1 включають:

  1. GTE-Moderncolbert-V1 використовує 128-мірні щільні вектори з схожістю на рівні токенів на основі фондів Колберта та Сучасного.
  2. Незважаючи на те, що навчається на 300-Token Documents, модель узагальнює документи до 8192 жетонів, показуючи пристосованість для завдань для пошуку довгого контексту.
  3. Точність@10 досягла 0,860, згадування@3 – 0,289, а точність@3 – 0,233, демонструючи сильну точність пошуку.
  4. На орієнтирі Бейра модель набрала 83,59 на Trec-Covid та 54,89 на FIQA2018, перевершивши Колберт-Малла та інші базові лінії.
  5. Досяг середнього показника 88,39 в Longembed еталону та 78,82 в QA розповіді LEMB, перевершивши попередню SOTA майже на 10 балів.
  6. Інтегрується з індексом Voyager Pylate, підтримує переробні та пошукові трубопроводи та сумісний з ефективною індексацією HNSW.
  7. Модель може бути розгорнута в трубопроводах, що потребують швидкого та масштабованого пошуку документів, включаючи академічні, підприємницькі та багатомовні програми.

На закінчення, це дослідження забезпечує змістовний внесок у тривалий семантичний пошук. Поєднуючи сильні сторони відповідності рівня токена з масштабованою архітектурою, GTE-Moderncolbert-V1 вирішує кілька вузьких місць, з якими стикаються поточні моделі. Він вводить надійний метод обробки та отримання семантично багатої інформації з розширених контекстів, що значно покращує точність та відкликання.


Перевірте Модель на обійманні обличчя. Весь кредит на це дослідження стосується дослідників цього проекту. Також сміливо слідкуйте за нами Твіттер І не забудьте приєднатися до нашого 90k+ ml subreddit.

Ось короткий огляд того, що ми будуємо в MarkTechPost:


ASIF Razzaq – генеральний директор MarktechPost Media Inc .. Як візіонерський підприємець та інженер, ASIF прагне використовувати потенціал штучного інтелекту для соціального блага. Його останнє зусилля-це запуск медіа-платформи штучного інтелекту, Marktechpost, яка виділяється своїм поглибленим висвітленням машинного навчання та глибоких новин про навчання, які є технічно обгрунтованими та легко зрозумілими широкою аудиторією. Платформа може похвалитися понад 2 мільйонами щомісячних поглядів, що ілюструє її популярність серед аудиторій.

Гаряче цього тижня

Зустріньте Пола Мбуру в соку, власник автобусів

Пол Мбуру, 1934 року, народився в Лімуру, штат Кенія,...

Дізнайтеся, як побудувати додатки iOS з Віндсерфом AI у 2025 році

Що робити, якщо створити додаток для iOS не потребував...

Райан Блейні розкриває позицію щодо NASCAR Netflix: повна швидкість сезону 3

Водій Team Penske Райан Блейні виявив, чи підтримає він...

П'ять найкращих безкоштовних VPN у 2025 році пропонують змішані продуктивність та обмежені функції

Сьогодні всі шукають хорошого безкоштовного VPN для використання. VPN...

Гео: Майбутнє SEO в епоху ШІ (Чатгпт, Близнюки, Бінг)

Як зробити свій вміст кращим для пошукових систем, які...

Теми

Зустріньте Пола Мбуру в соку, власник автобусів

Пол Мбуру, 1934 року, народився в Лімуру, штат Кенія,...

Дізнайтеся, як побудувати додатки iOS з Віндсерфом AI у 2025 році

Що робити, якщо створити додаток для iOS не потребував...

Райан Блейні розкриває позицію щодо NASCAR Netflix: повна швидкість сезону 3

Водій Team Penske Райан Блейні виявив, чи підтримає він...

Гео: Майбутнє SEO в епоху ШІ (Чатгпт, Близнюки, Бінг)

Як зробити свій вміст кращим для пошукових систем, які...

Як Newbeat хоче зробити вплив на K-pop

Newbeat у концептуальній фотографії для їх дебютного альбому "Raw...

SEO Excellence визнаний: нагороди від SEBA, SOBA & SME100

У сучасному цифровому світі, що швидко розвивається, бізнес по...