...
Субота, 28 Червня, 2025
17.6 C
Kyiv

Новий алгоритм Muvera Google покращує пошук

Google оголосив про новий алгоритм пошуку мультивектора під назвою Muvera, який прискорює пошук та рейтинг, та підвищує точність. Алгоритм можна використовувати для пошукових систем (як -от YouTube) та для обробки природної мови (NLP).

Незважаючи на те, що оголошення явно не говорить про те, що воно використовується в пошуку, дослідницька робота дає зрозуміти, що Muvera дозволяє ефективне багатокранне пошук у веб-масштабах, особливо, роблячи його сумісним із існуючою інфраструктурою (через MIPS) та зменшенням затримки та слідів пам'яті.

Векторне вкладення в пошук

Векторне вкладення – це багатовимірне зображення взаємозв'язків між словами, темами та фразами. Це дозволяє машинам розуміти подібність за допомогою таких моделей, як слова, які з’являються в одному контексті чи фразах, які означають однакові речі. Слова та фрази, пов’язані з пов’язаними, займають простори, ближче один до одного.

  • Слова “король Лір” будуть близькими до фрази “Шекспірівська трагедія”.
  • Слова “Мрія про літню ніч” займатимуть простір, близький до “комедії Шекспіра”.
  • І “король Лір”, і “Мрія про літню ніч” будуть розташовані в просторі, близькому до Шекспіра.

Відстані між словами, фразами та поняттями (технічно математичною мірою подібності) визначають, наскільки тісно пов'язаний кожен з іншого. Ці закономірності дозволяють машині висувати подібність між ними.

Muvera вирішує притаманну проблему вкладення вектора

Дослідження Muvera зазначає, що нейронні вкладення були особливістю пошуку інформації протягом десяти років і наводять дослідницьку документа про багатокрану Колберта з 2020 року як прорив, але це говорить про те, що він страждає від вузького місця, що робить його менш ідеальним.

“Нещодавно, починаючи з визначного паперу Colbert, багатокекторні моделі, які створюють набір вбудовування за точку даних, досягнули помітно чудової продуктивності для ІЧ-завдань. На жаль, використання цих моделей для ІЧ обчислювально дорого завдяки підвищеній складності пошуку багато векторних та оцінок”.

Оголошення Google про Муверу перегукується з цими недоліками:

“… Останні досягнення, зокрема, впровадження багато векторних моделей, таких як Колберт, продемонстрували значно покращену ефективність в ІЧ-завданнях. Хоча цей мультипредиторський підхід підвищує точність і дозволяє отримати більш релевантні документи, він впроваджує істотні обчислювальні проблеми. Зокрема, збільшення кількості вбудовування та складності багаторазового подібного вектора, що підтримує, що значно вигідніше.

Може бути наступником технології Google Rankembed?

Антимонопольний позов Міністерства юстиції США (DOJ) призвів до свідчень, які виявили, що один із сигналів, що використовуються для створення сторінок результатів пошукової системи (SERP), називається Rankembed, який був описаний таким:

“Rankembed – це модель подвійного кодера, яка вбудовує як запит, так і документ у вбудований простір. Вбудовування місця враховує семантичні властивості запиту та документа на додаток до інших сигналів. Вилучення та рейтинг – це точка -продукт (відстань у вбудованому просторі) … надзвичайно швидко; висока якість за загальними запитими, але може виконувати погано для хвойних запитів …”

Muvera-це технічний прогрес, який стосується обмежень ефективності та масштабування багатопробних систем, які самі є кроком за рамки моделей подвійного кодерки (як, наприклад, Rankembed), що забезпечує більшу семантичну глибину та обробку продуктивності запитів.

Прорив-це методика, яка називається фіксованим розмірним кодуванням (FDE), яка ділить вбудований простір на секції та поєднує вектори, які потрапляють у кожен розділ, щоб створити єдиний вектор фіксованої довжини, що робить його швидшим для пошуку, ніж порівняння декількох векторів. Це дозволяє ефективно використовувати багато векторні моделі в масштабах, покращуючи швидкість пошуку, не жертвуючи точністю, що надходить від більш багатшого семантичного представлення.

Згідно з повідомленням:

«На відміну від вкладень в один вектор, моделі мультивектора представляють кожну точку даних із набором вбудованих вбудовувань та використовують більш складні функції подібності, які можуть фіксувати більш багаті взаємозв'язки між точками даних.

Незважаючи на те, що цей мультивекторний підхід підвищує точність та дозволяє отримати більш відповідні документи, він вводить суттєві обчислювальні проблеми. Зокрема, збільшення кількості вбудовувань та складність багатопід вектора подібності роблять пошук значно дорожчим.

У “Muvera: багатокранг-пошук за допомогою фіксованих розмірних кодексів”, ми вводимо новий алгоритм пошуку мультивектора, призначений для подолання розриву в ефективності між пошуком одно- та багатоквектора.

… Цей новий підхід дозволяє нам використовувати високооптимізовані алгоритми MIPS, щоб отримати початковий набір кандидатів, які потім можуть бути перероблені з точною подібністю багатоквартирного векторного, тим самим забезпечуючи ефективне пошук мультивектора без жертвування точності ».

Моделі з багатоквектором можуть надати більш точні відповіді, ніж моделі подвійного ендодерного, але ця точність становить ціну інтенсивних вимог до обчислень. Muvera вирішує питання складності моделей з багатоквектором, тим самим створюючи спосіб досягнення більшої точності багатопробних підходів без високих обчислювальних вимог.

Що це означає для SEO?

Muvera показує, як сучасний рейтинг пошуку все частіше залежить від судження про подібність, а не старомодних сигналів ключових слів, на які часто зосереджені інструменти та SEO. SEOS та видавці, можливо, захочуть змінити свою увагу від точної відповідності фрази до узгодження із загальним контекстом та наміром запиту. Наприклад, коли хтось шукає “Кордуройські куртки чоловічого середовища”, система, що використовує Мувера-подібне до пошуку, швидше за все, займає розміщення сторінок, які фактично пропонують ці продукти, а не сторінки, які просто згадують “Кордуройські куртки” і включають слово “середній” у спробі відповідати запиту.

Прочитайте оголошення Google:

MUVERA: Зробити багато векторного пошуку настільки ж швидким, як пошук в один вектор

Зображення від Shutterstock/Bluestork

Гаряче цього тижня

Теми

Основна структура, завершена для швидкісного залізничного мосту на півдні Китаю

Основна структура найдовшого мосту, пов'язаного з архами, наразі будується...

Що таке маркетинг LLM? Як DeapleDope допомагає брендам виявити та рости | дурний

Що таке маркетинг LLM? Маркетинг LLM-короткий для маркетингу з великою...

Як синтетичні дані розблокують нові можливості для інтелектуального відео

Думка гостей: Протягом останніх кількох десятиліть відео технологія...

Вплив чатгпта на стратегії маркетингу пошукових систем

Маркетинг пошукових систем (SEM) завжди стосувався допомоги бізнесу отримати...