+7 (495) 532-45-69

График работы: с 9-00 до 19-00

Получите доступ к пошаговым видео-инструкциям Получить Восстановить
Что такое BM25

Голосов: 2, Рейтинг: 4.5

02.10.2017

Что такое BM25

BM 25 (от англ. Best match) – функция ранжирования, которое используется поисковыми системами для распределения документов по их релевантности данному запросу. В поисковых системах эта функция относится к машинному обучению.

История BM25

Данная функция появилась в Лондоне 1980-1990-х годах и придумана учеными Лондонского университета Карен Спарк Джонс и Стивеном Робертсоном, где и была впервые использована.

Суть функции была в чем: Документ анализируется, значения попадают в формулу, где сравниваются показатели относительно других документов и в конечном итоге выдается оценка, которая влияет на ранжирование страницы в поисковой выдаче. Сложно, но давайте разберем более подробно.

Как рассчитывается BM25

Допустим у нас есть запрос Q который содержит слова от q1 до qn. В этом случае BM25 выдаст нам оценку релевантности документа D к запросу Q

Формула BM25

Формула ранжирования BM25

Где f (qi, D) это частота слова,

qi в документе D – длина документов (количество слов в документе)

Avgdl – средняя длина документа

K1 и b – свободные коэффициенты, обычно их выбирают как k1=2.0 и b=0.75

IDF(qi) – это обратная документная частота слова qi. Существует несколько версий относительно IDF и вариации его формулы.

Она определяется как:

Формула BM25

Формула ранжирования

N – это общее количество документов в коллекции

N(qi) – количество документов которые содержат qi.

Но чаще всего применяется более упрощенный вариант этой формулы, например, одна из таких:

Формула 3 BM25

Формула 3 BM25

Обратите внимание что в формуле содержащая IDF есть недостаток.  Слова, входящие в половину документов и более из коллекции – значение IDF для них будет отрицательным. Получается, при наличии двух почти одинаковых документов, в одном из которых есть слово, а во втором нет, второй получит большую оценку.

Читайте в нашем блоге: Разработка сайта под дальнейшее SEO-продвижение

Часто встречающиеся слова испортят конечную оценку документа. Этого лучше избежать, но во многих приложениях формулу, которую я привел выше может быть скорректирована различными способами:

  • Не учитывать все отрицательные слагаемые в сумме (это означает что формула игнорирует все высокочастотные слова)
  • Налагать на IDF нижнюю границу E, если IDF меньше E то считать ее равной E
  • Использование любой другой формулы IDF, которая не принимает отрицательные значения

Так же существует дополнительная модификация BM25F, в которой документ рассматривается как совокупность двух и более полей (заголовки, тест, ссылочный текст итд), длины которых независимо и каждый из который несет свою значимость для итоговой оценки ранжирования страницы

Читайте в нашем блоге: Google Trends – как правильно анализировать данные?

Заключение:

BM25 для SEO-специалистов темный лес (возможно даже не слышали при продвижении проектов), так как поисковые системы не могут разглашать принципы работы данной функции, иначе зачем тогда вообще SEO, если все изначально было так предсказуемо.

 

Получите бесплатные фишки по SEO продвижению

Комментарии



Разделы сайта


+7 (495) 532-45-69

График работы: с 9-00 до 19-00


Оставьте email и мы пришлем вам статью

Видеоролики