BM 25 (от англ. Best match) – функция ранжирования, которое используется поисковыми системами для распределения документов по их релевантности данному запросу. В поисковых системах эта функция относится к машинному обучению.
История BM25
Данная функция появилась в Лондоне 1980-1990-х годах и придумана учеными Лондонского университета Карен Спарк Джонс и Стивеном Робертсоном, где и была впервые использована.
Суть функции была в чем: документ анализируется, значения попадают в формулу, где сравниваются показатели относительно других документов и в конечном итоге выдается оценка, которая влияет на ранжирование страницы в поисковой выдаче. Сложно, но давайте разберем более подробно.
Как рассчитывается BM25
Допустим у нас есть запрос Q который содержит слова от q1 до qn. В этом случае BM25 выдаст нам оценку релевантности документа D к запросу Q
Где f (qi, D) это частота слова,
qi в документе D – длина документов (количество слов в документе)
Avgdl – средняя длина документа
K1 и b – свободные коэффициенты, обычно их выбирают как k1=2.0 и b=0.75
IDF(qi) – это обратная документная частота слова qi. Существует несколько версий относительно IDF и вариации его формулы.
Она определяется как:
N – это общее количество документов в коллекции
N(qi) – количество документов которые содержат qi.
Но чаще всего применяется более упрощенный вариант этой формулы, например, одна из таких:
Обратите внимание, что в формуле содержащая IDF есть недостаток. Слова, входящие в половину документов и более из коллекции – значение IDF для них будет отрицательным. Получается, при наличии двух почти одинаковых документов, в одном из которых есть слово, а во втором нет, второй получит большую оценку.
Читайте в нашем блоге: Как выглядит СДЛ - Сайт для людей?
Часто встречающиеся слова испортят конечную оценку документа. Этого лучше избежать, но во многих приложениях формулу, которую я привел выше может быть скорректирована различными способами:
- Не учитывать все отрицательные слагаемые в сумме (это означает что формула игнорирует все высокочастотные слова);
- Налагать на IDF нижнюю границу E, если IDF меньше E то считать ее равной E;
- Использование любой другой формулы IDF, которая не принимает отрицательные значения.
Также существует дополнительная модификация BM25F, в которой документ рассматривается как совокупность двух и более полей (заголовки, тест, ссылочный текст и тд), длины которых независимо и каждый из который несет свою значимость для итоговой оценки ранжирования страницы.
Читайте в нашем блоге: Как удалить дубли на сайте
Заключение:
BM25 для SEO-специалистов темный лес (возможно даже не слышали при продвижении проектов), так как поисковые системы не могут разглашать принципы работы данной функции, иначе зачем тогда вообще SEO, если всё изначально было так предсказуемо.