Отношение TF/IDF
Соотношение TF к IDF - статистический показатель, который используется преимущественно для оценивания важности (весомости) конкретного слова (термина) в контексте всего документа, входящего в общую коллекцию (базу).
Термин TF/IDF имеет англоязычное происхождение, где TF дословно означает частотность вхождения термина (от англ. словосочетания term frequency), а IDF расшифровывается, как обратная (инвертированная) частота документа (от англ. inverse document frequency). В соответствии с отношением TF/IDF весомость определенного слова (термина) прямо зависит от количества раз его использования в конкретном тексте и обратно зависима от числа использования данного слова в множестве остальных документов (текстов).
TF или частота слова - это отношение количества вхождения конкретного термина к суммарному набору слов в исследуемом тексте (документе). Этот показать отражает важность (весомость) слова в рамках определенной статьи/публикации.
IDF или обратная (инвертированная) частота документа - это инверсия частотности, с которой определенное слово фигурирует в коллекции текстов (документов). Благодаря данному показателю можно снизить весомость наиболее широко используемых слов (предлогов, союзов, общих терминов и понятий). Для каждого термина в рамках определенной базы текстов предусматривается лишь одно единственное значение IDF.
Показатель TF/IDF будет выше, если определенное слово с большой частотой используется в конкретном тексте, но редко - в других документах.
Использование отношения
Показатель TF/IDF прежде всего используется для анализа текстового контента в больших потоках данных. Так, к данному отношению прибегают поисковые алгоритмы, чтобы определить релевантность конкретной странички (прежде всего, текста, который на ней находится), пользовательскому запросу в поиске. Также данный статистический показатель позволяет определить близость различных документов (текстов) друг другу, что может быть использовано при их группировке (кластеризации).
Пример расчета весомости по отношению TF/IDF
Предположим, есть страничка сайта с текстом о диете. В этом тексте всего 170 слов, а термин «диета» встречается 7 раз. Этой информации достаточно, чтобы определить показатель TF, который будет равен 7/170 = 0,04.
Предположим, что слово «диета» имеется на 1000 веб-страничках из 10 миллионов общей коллекции страниц в Интернете (условные значения). Для определения показателя DF, необходимо взять логарифм (основание можно взять произвольно - в нашем случае 10). По имеющимся данным получим lg(10 000 000/1000) = 4.
Остается подсчитать весомость, для чего TF нужно разделить на инвертированный показатель DF, то есть 0,04 /(1/4) = 0,04 *4 = 0,16.
Лучше заказать продвижение сайта у профессионалов и потратить свою энергию на работу с клиентами. К тому же разных показателей, индексов, соотношений для оценки seo сайта не мало.