Отношение TF/IDF

Соотношение TF к IDF - статистический показатель, который используется преимущественно для оценивания важности (весомости) конкретного слова (термина) в контексте всего документа, входящего в общую коллекцию (базу).

Термин TF/IDF имеет англоязычное происхождение, где TF дословно означает частотность вхождения термина (от англ. словосочетания term frequency), а IDF расшифровывается, как обратная (инвертированная) частота документа (от англ. inverse document frequency). В соответствии с отношением TF/IDF весомость определенного слова (термина) прямо зависит от количества раз его использования в конкретном тексте и обратно зависима от числа использования данного слова в множестве остальных документов (текстов).

TF или частота слова - это отношение количества вхождения конкретного термина к суммарному набору слов в исследуемом тексте (документе). Этот показать отражает важность (весомость) слова в рамках определенной статьи/публикации.

IDF или обратная (инвертированная) частота документа - это инверсия частотности, с которой определенное слово фигурирует в коллекции текстов (документов). Благодаря данному показателю можно снизить весомость наиболее широко используемых слов (предлогов, союзов, общих терминов и понятий). Для каждого термина в рамках определенной базы текстов предусматривается лишь одно единственное значение IDF.

Показатель TF/IDF будет выше, если определенное слово с большой частотой используется в конкретном тексте, но редко - в других документах.

 

Использование отношения

Показатель TF/IDF прежде всего используется для анализа текстового контента в больших потоках данных. Так, к данному отношению прибегают поисковые алгоритмы, чтобы определить релевантность конкретной странички (прежде всего, текста, который на ней находится), пользовательскому запросу в поиске. Также данный статистический показатель позволяет определить близость различных документов (текстов) друг другу, что может быть использовано при их группировке (кластеризации).

 

Пример расчета весомости по отношению TF/IDF

Предположим, есть страничка сайта с текстом о диете. В этом тексте всего 170 слов, а термин «диета» встречается 7 раз. Этой информации достаточно, чтобы определить показатель TF, который будет равен 7/170 = 0,04.

Предположим, что слово «диета» имеется на 1000 веб-страничках из 10 миллионов общей коллекции страниц в Интернете (условные значения). Для определения показателя DF, необходимо взять логарифм (основание можно взять произвольно - в нашем случае 10). По имеющимся данным получим lg(10 000 000/1000) = 4.

Остается подсчитать весомость, для чего TF нужно разделить на инвертированный показатель DF, то есть 0,04 /(1/4) = 0,04 *4 = 0,16.

Оцените статью: 4.6 (5)
Следующая статья: Понятие Long tail и его перевод
Предыдущая статья: Каталоги сайтов: предназначение, условия регистрации, новые коммерческие форматы
Написать статью для вас?
Отправьте заявку на статью: если проблема окажется актуальной и массовой – мы опишем ее решение и разместим статью на сайте.
Хочу статью
При заказе
продвижения
Скидка на
разработку
сайта
Заказать
Приведи
друга
получи
скидку
Подробнее
Специальное
предложение
против
вируса
Получить кп
Комментарии
Показать сначала:
Новые Старые
Антон
19.08.2017, 15:27
0
–  0
Очень полезная статья.Занимаюсь созданием сайтов на платформе Word Press и решил узнать как работает SEO оптимизация по данному типу платформы.и теперь я понимаю, что один из важнейших аспектов продвижение в поисковике сайта это отношение TF/IDF.В ближайшее время постараюсь изучить всю информацию и как она взаимодействует на Word Press.Оставлю отзыв если у меня, что то выйдет.
Вадим
21.06.2017, 15:00
0
–  0
Рассчитывать показатель TF/IDF самостоятельно и делать какие-либо выводы не будучи специалистом в seo оптимизации сайтов бесполезная трата усилий. Ничего кроме спортивного интереса это не даст.
Лучше заказать продвижение сайта у профессионалов и потратить свою энергию на работу с клиентами. К тому же разных показателей, индексов, соотношений для оценки seo сайта не мало.
саша
06.06.2017, 11:19
0
–  0
любом случае, чтобы знать , как улучшить свои продажи с помощью сайта, нужно быть профессионалом. Рассчитывать тот же коэффициент отношение TF/IDF самостоятельно достаточно сложно. Нужно, как минимум, пройти курсы ;) Поэтому в свое время сильно не заморачивался, сделал заказ у ребят , и продажи выросли ;) Реально экономишь свои время, а на выходе получаешь хороший результат ;)
Написать комментарий
captcha

Новые исследования

2021-03-03 00:00:00

Повышение продаж применяя данные из отчетов Google Search Console

Google Search Console - это бесплатный  SEO-инструмент, обозначенной в самом названии системы. Способы взаимодействия и примеры практического применения рассматриваются далее.
Читать 54

2021-02-28 00:00:00

Гугл Новости и SEO - все, что нужно знать владельцам сайтов, которые хотят больше трафика из Google News

Владельцы новостных сайтов и медиа-холдинги стремятся занимать первые места в поисковой выдаче среди наиболее популярных сайтов, предоставляющих доступ к контенту разного типа. Как опытные SEO-специалисты, работающие в том числе с публикациями, мы хотим поделиться некоторыми идеями и советами по ранжированию в Google. Речь пойдет исключительно о новостных проектах, имеющих шанс попасть в индекс приложения “Новости Google”. Мы определили ряд практик и методов по оптимизации контента, которые применимы к поисковому продвижению новостных сайтов (страниц, приложений и прочих форматов сети).
Читать 50
Больше исследований

Интервью и мнения SEO-гуру

Для глубокого погружения в профессию оптимизатора, мы настоятельно рекомендуем совмещать чтение с просмотром видео.

Евгений Аралов: главные прогнозы на 2020 (сервисы и методы)

Далеко не каждый специалист может быстро и качественно продвинуть сайт в непростой тематике. Например, букмекерская площадка для ставок в спорте, где SEO чуть ли не ед...

Анализ SEO для СМИ: ведущий эксперт отрасли Галина Бакушева

Для одних Галина Бакушева ассоциируется с каналом Телеграм «Сеошница», для других, она создатель собственного ТВ на фейсбук. Однако такая популярность не г...

Ксения Пескова: качественный продукт приятно рассматривать даже краулерам

Всего два года потребовалось, чтобы стажер SiteClinic, Ксения Пескова, стала не просто тимлидом компании, но и трастовым экспертом в области SEO. Все началось почти ср...

Кирилл Рамирас: лучшие рекомендации по ведению блога для ИМ

Кирилл Рамирас интересен владельцам бизнеса в сети своими успешными проектами, опытом работы в SEO с 2007 года. Регулярное обновление публикаций на Altblog.ru &nd...

Алексей Алексеич: рост и боль в продвижении 2020 - какие прогнозы сбылись?

Сам о себе говорит, что он точно не Андрей, любит котов и смотрит «Битву Престолов». Если серьезно, эксперту 25 лет и с 2011 года основательно занимается с...

Андрей Буйлов: проблемы seo клиента не волнуют!

Андрей Буйлов – известный в сети эксперт по SEO продвижению сайтов. Свою карьеру начинал в конце 90-х. Тогда будущий спикер разнообразных конференций, семинаров ...

Все интервью
Нам доверяют крупные международные компании