№22 (27-01-2016). Текстовая оптимизация: стоит ли верить в силу TF-IDF и BM25

Раньше основным фактором продвижения в ТОП были ссылки. Теперь важнее всего текстовые факторы и внутренняя оптимизация. Пока ссылки были на коне, составлять ТЗ на тексты для сайта можно было практически «на глазок», щедро рассыпая нужные ключевики — и все работало, сайты ползли наверх. Сейчас же попытки писать тексты, ориентируясь на устаревшие метрики типа «плотности ключевых слов на количество символов», не приведут к хорошим результатам. Теперь одним из самых лучших способов проверить SEO-подрядчика будет поинтересоваться, каким образом составляются технические задания для копирайтеров. Ответ должен быть таким: 

  1. автоматизированная система подбирает полное семантическое ядро по «затравкам», анализируя реальную коллекцию документов индекса; 
  2. проводится автоматизированная кластеризация запросов на основе статистического анализа текущих лидеров ТОПа по соответствующим ключевикам; 
  3. проводится статистический анализ объема документов в ТОПе и их частотных характеристик, также частотных характеристик по зонам документа (!), на основе которых автоматизированно составляется ТЗ, с которым может работать копирайтер. 

Как вы видите, речь только о динамических факторах, которые выявляются путем анализа текущих лидеров выдачи, и не по одному, а по множеству критериев. Тем не менее, сообщество оптимизаторов всегда ищет пути полегче. Сейчас, к сожалению, многие становятся на путь проповедования TF-IDF и BM25/BM25F. Формулы расчета этих показателей могут внушить уважение непосвященным, но стоит понимать, что за ними не кроется никакой магии. Забегая вперед, скажем, что использование BM25 вместо динамического анализа реальных лидеров ТОПа по куче текстовых факторов — это путь к потере релевантности и отсутствию возможности бороться за лидирующие позиции по высококонкурентным запросам. 

Чтобы не быть голословными, давайте разберем популярные сейчас подходы для, грубо говоря, составления ТЗ на тексты: BM25 и TF-IDF. Мы также дополним этот теоретический ликбез сведениями из последних статей SEO-эксперта Kokoc.com Алексея Чекушина, посвященных текстовым факторам ранжирования. 

Сразу подчеркнем: мы не говорим, что поисковые системы не используют BM25. Очень существенная часть из 50 текстовых факторов ранжирования Яндекса — это, вероятнее всего, пороговые условия if/else по уже давно известным стандартным метрикам текстового анализа, в том числе и BM25. Однако будет наивно писать все тексты в соответствии с BM25 и думать, что это решает задачу. Текстовых факторов не один, а, по заявлениям «Яндекса», около 50. Да и машинное обучение вносит заметные корректировки. Так что если хотите в ТОП, простой (пусть и непонятной на первый взгляд) формулой не обойтись. Тем не менее, знать о базовых метриках необходимо. Для начала рекомендуем освежить в памяти наши предыдущие статьи о текстовом ранжировании: 

TF-IDF — оценка важности слова в тексте
Поисковые системы не понимают текст, а обсчитывают его метрики. Одна из типичных задач для такого обсчета: определить самые главные слова текста, которые дадут возможность отнести документ (страницу) к той или иной тематике, кластеризовать тексты/запросы, включить в ранжирование по каким-то критериям. Ну и прочее: например, сделать пессимизационные выводы при наличии в тексте двух и более главных сочетаний абсолютно разных тематик — например, «купить пластиковые окна» и «свиноводство». 

Итак, TF — это term frequency (частота вхождений в тексте), IDF — inverse document frequency (отношение общего количества текстов в коллекции к количеству текстов, содержащих рассматриваемое словосочетание). 

TF-IDF — это TF, умноженное на IDF. 

TF = количество вхождений слова / сумма слов в тексте 

IDF = общее количество текстов / количество текстов, в которых встречается слово 

Что нам дают эти вычисления? TF позволяет понять, насколько слово важно в конкретном тексте, а IDF дает возможность «отфильтровать» часто употребляющиеся слова и рассматривать только «значащие».

BM25 — более продвинутая версия TF-IDF
BM — это Best Match, то есть «наилучшее совпадение». Это уже мера релевантности текста запросу. Распространенный вариант этой функции таков: берем IDF запроса и умножаем на частное TF и суммы TF и отношения длины текста и средней длины текстов в коллекции. Все это дополнено свободными коэффициентами (k и b в формуле), но это уже не так важно. Как видите, BM25 не очень-то сильно отличается от TF-IDF. В функцию добавлен только учет отношения длины рассматриваемого текста к средней длине текста в коллекции.

Так что не стоит пугаться или испытывать лишнее уважение, когда оптимизатор показывает формулу. Ничего особенно крутого в ней нет. Давайте еще раз поясним, почему эту формулу нельзя использовать для составления ТЗ для копирайтера: во-первых, у Яндекса не один текстовый фактор, а 50. Во-вторых, машинное обучение может, например, вывести в ТОП по определенным запросам страницы с заметно отличающейся совокупностью весов важности текстовых факторов. Стандартная формула BM25 не дает возможности учесть это. 

Стоит также упомянуть о BM25F — модификации меры релевантности по фактору частотности, которая учитывает различную важность зон документа — например, заголовок вносит больший вклад, чем предложение в середине текста. 

Эксперимент Алексея Чекушина подтверждает отсутствие возможности использовать простую формулу BM25 для продвижения по средне- и высококонкурентным запросам:



Тексты, созданные по ТЗ, подготовленному через продвинутый текстовый анализ, увеличивают видимость страниц в поисковиках (то есть приводят к росту позиций). Тексты, написанные по ТЗ, составленному через расчет BM25 — снижают видимость.

Вывод
Теперь если ваши оптимизаторы попытаются продать вам BM25 как нечто потрясающее инновационное и эффективное, вы сможете с пониманием вынести отрицательное оценочное суждение об их компетенции. Эта функция была разработана в 1980-х годах, она очень мало отличается от простого «берем количество вхождений и делим на объем текста. Сейчас уже нет никакой возможности результативно продвигать сайты силами школьника Васи — чтобы добиться вывода в ТОП, нужна математика и продвинутая автоматизация обсчета вполне серьезных объемов данных. Вот, например, известная инфографика — «что нужно выучить специалисту по анализу данных»: Возможность делать эффективное SEO сейчас есть только у крупных компаний, которые могут позволить себе работать с ведущими специалистами и вкладывать деньги в разработку и обкатку соответствующего софта (внутреннего инструментария).



Версия для печати

Вернуться ко всем статьям