...
Четвер, 16 Жовтня, 2025
9.8 C
Kyiv

Дослідники розробляють систему AI для виявлення веб -сайтів афери в результатах пошуку

Веб-сайти SCAM, пов'язані з інтернет-магазинами, продажами домашніх тварин та іншими схемами електронної комерції, продовжують спричиняти мільйони втрат щороку. Інструменти безпеки можуть точно виявляти шахрайські сайти, коли вони будуть знайдені, але виявлення нових залишається важким.

Шахрайні веб -сайти Пошук

Щоб закрити цю прогалину, дослідники з Бостонського університету створили Локі, систему, яка займає пошукові запити за тим, наскільки вони ймовірно, що вони розкриють афери. Використовуючи невеликий насінний набір з 1663 підтверджених доменів афери, Локі виявив 52 493 раніше невідомі шахрайські веб-сайти та досяг у 20,58 разів покращення виявлення в десяти категоріях афери.

Основна ідея: вимірювання токсичності

Локі починається з простого спостереження: деякі пошукові фрази послідовно піднімають веб -сайти афери. Коли хтось тип Швидко вдвічі мій біткойнРезультати часто включають підроблені інвестиційні сторінки. Безпечніша фраза, як як надійно купити біткойн виробляє переважно законні путівники. Цю різницю можна виміряти.

Дослідники називають цю вимірювальну токсичність запитів, частка веб -сайтів афери серед усіх результатів для пошукового терміну. Якщо запит поверне шість сайтів афери з двадцяти загальної кількості, його токсичність становить 0,3. Чим вище значення, тим більше шансів на те, що запит веде користувача до шахрайської частини Інтернету.

Токсичність пов'язує людську мову з ландшафтом афери, індексованих пошуковими системами. Вимірювання цього вимагає знати, які результати – це афери, саме тут є класифікатор Локі, Oracle.

Після того, як показники токсичності будуть відомі для багатьох прикладних запитів, починається більш важке завдання, прогнозуючи токсичність для нових пошукових термінів, які ніколи не перевірялися. Робити це вручну означатиме видання кожного можливого запиту та маркування кожного сайту, що не є практичним. Локі замінює ці зусилля за допомогою моделі машинного навчання, яка вивчає взаємозв'язок між формулюванням запиту та його ймовірністю виробництва афери.

Побудова Всесвіту ключових слів

Маючи довірений класифікатор, дослідники звернулися до мови афери. Вони зібрали близько 1,5 мільйонів пропозицій ключових слів за допомогою API планувальників ключових слів Google, який перераховує пошукові терміни, витягнуті з рекламних даних. Для кожного відомого домену афери, система вимагає пов’язаних ключових слів.

Цей метод створив реалістичні пошукові запити на основі поведінки користувачів. Команда відфільтровувала фірмові терміни, оскільки вони часто повертають законні сайти високої авторства.

Щоб вивчити, як пошукові системи обробляють ці ключові слова, вони використовували API DataForseo для збору результатів від Google, Bing, Baidu та Naver. Ці сторінки результатів пошукових систем стали навчальними даними для процесу навчання моделі.

Чому старі методи не вистачають

Перш ніж розробити свою модель, команда перевірила старіші методи відбору ключових слів, згруповані за рівнем конкуренції, наміром та мовними модифікаторами.

Результати були непослідовними. Ключові слова та фрази з низькою конкуренцією з сильним наміром покупки показали дещо більшу токсичність, але жоден метод не працював у категоріях шахрайства. Модифікатори, що викривали афери криптовалюти, не змогли на ПЕТ або медичні афери.

Правила ключового слова вручну не могли адаптуватися до нових типів афери. Новий підхід був побудований для вивчення цих моделей безпосередньо з даних, а не покладатися на фіксовані списки.

Як вчиться Локі

Система прогнозує токсичність пошукового запиту, не видаючи цей запит у режимі реального часу. Для цього він використовує метод, який називається навчанням під привілейованою інформацією (Lupi).

У цій установці модель має додатковий контекст під час навчання, такі як фрагменти та описи, повернені пошуковими системами, але в використанні вона бачить лише текст запиту. Цей додатковий контекст вважається привілейованим, оскільки він допомагає моделі вивчити зв’язок між запитом та характером його результатів.

Рамка використовує дві компоненти, вчитель та учня. Вчитель бачить як пошуковий запит, так і пов'язані з цим результати пошуку, вивчаючи, як ці особливості стосуються токсичності. Студент бачить лише текст запитів і вчиться прогнозувати токсичність, наслідуючи результати вчителя.

Обидва компоненти базуються на Distilbert, мови трансформатора, яка використовується для розуміння тексту. Вчитель тренується спочатку на парах запитів та результатів пошуку, позначених показниками токсичності. Потім студент вискакує ці знання, узгоджуючи його риси та прогнози з вчителем.

Ця установка дозволяє студенту передбачити токсичність, використовуючи лише введення тексту, уникаючи необхідності постійних запитів API, які сповільнюють відкриття.

Тестування та результати

Команда перевірила Локі, використовуючи перехресну перевірку, яка навчалася на чотирьох категоріях афери та перевірила п’яту, змушуючи її узагальнити до нових типів.

Порівняно з базовими моделями та евристикою ключових слів, Loki послідовно виробляв більш високі прогнози токсичності та розкрив багато інших шахрайських майданчиків. Як вчитель, так і учнівські версії добре виконувались; Студент часто звертався до точності вчителя, не потребуючи даних про пошук у висновку.

Продуктивність була сильною у різних категоріях, з особливо високими прибутками в таких сферах, як послуги для дорослих та азартні ігри, а також стабільні результати в інших місцях.

Візерунки мовою африки

Крім показників, дослідження виявили закономірності, що перетинають категорії. Запити з ціновими сигналами або модифікаторами, такими як дешевий або без перевірки виявився більш токсичним для типів афери.

Ці фрази використовують ті самі тригери, на які покладаються шахраї, обіцяючи швидкість, заощадження чи визначеність. Визнання таких мовних сигналів допомагає пояснити, чому модель добре передається на нові типи афери.

Дослідники публічно випустили свої набори даних та моделі, що дозволяє іншим розвивати роботу. По суті, Локі вчить машин думати як мисливці за шахрайством, які розуміють поведінку пошуку, автоматизацію процесу, який колись покладався на інтуїцію та ручні зусилля.

Гаряче цього тижня

Ро Вун ламає форму в хіті Disney+ «Тамний потік»

Від серцеїда до гангстера часів Чосона: випускник SF9 знаходить...

Університети Вісконсина: Університет Вісконсіна–О Клер, канцлер, комітет пошуку та перевірки

МЕДІСОН, Вісконсін. Емі Б. Богост, президент ради регентів Університетів...

Теми

Ро Вун ламає форму в хіті Disney+ «Тамний потік»

Від серцеїда до гангстера часів Чосона: випускник SF9 знаходить...

Університети Вісконсина: Університет Вісконсіна–О Клер, канцлер, комітет пошуку та перевірки

МЕДІСОН, Вісконсін. Емі Б. Богост, президент ради регентів Університетів...

AI від Greenlight до Glass: наслідки для мовників | коментар

Оскільки соціальні платформи та рекламний світ мчаться вперед із...

Чому AI все ще працює на пошуку – і SEO все ще керує шоу

Коли історія маркетингу озирається на 2025 рік, вона відзначить...

Хто є експертом SEO №1 у США

Прес -релізОпубліковано 15 жовтня 2025 рокуУ Сполучених Штатах є...