Отношение TF/IDF

Соотношение TF к IDF - статистический показатель, который используется преимущественно для оценивания важности (весомости) конкретного слова (термина) в контексте всего документа, входящего в общую коллекцию (базу).

Термин TF/IDF имеет англоязычное происхождение, где TF дословно означает частотность вхождения термина (от англ. словосочетания term frequency), а IDF расшифровывается, как обратная (инвертированная) частота документа (от англ. inverse document frequency). В соответствии с отношением TF/IDF весомость определенного слова (термина) прямо зависит от количества раз его использования в конкретном тексте и обратно зависима от числа использования данного слова в множестве остальных документов (текстов).

TF или частота слова - это отношение количества вхождения конкретного термина к суммарному набору слов в исследуемом тексте (документе). Этот показать отражает важность (весомость) слова в рамках определенной статьи/публикации.

IDF или обратная (инвертированная) частота документа - это инверсия частотности, с которой определенное слово фигурирует в коллекции текстов (документов). Благодаря данному показателю можно снизить весомость наиболее широко используемых слов (предлогов, союзов, общих терминов и понятий). Для каждого термина в рамках определенной базы текстов предусматривается лишь одно единственное значение IDF.

Показатель TF/IDF будет выше, если определенное слово с большой частотой используется в конкретном тексте, но редко - в других документах.

 

Использование отношения

Показатель TF/IDF прежде всего используется для анализа текстового контента в больших потоках данных. Так, к данному отношению прибегают поисковые алгоритмы, чтобы определить релевантность конкретной странички (прежде всего, текста, который на ней находится), пользовательскому запросу в поиске. Также данный статистический показатель позволяет определить близость различных документов (текстов) друг другу, что может быть использовано при их группировке (кластеризации).

 

Пример расчета весомости по отношению TF/IDF

Предположим, есть страничка сайта с текстом о диете. В этом тексте всего 170 слов, а термин «диета» встречается 7 раз. Этой информации достаточно, чтобы определить показатель TF, который будет равен 7/170 = 0,04.

Предположим, что слово «диета» имеется на 1000 веб-страничках из 10 миллионов общей коллекции страниц в Интернете (условные значения). Для определения показателя DF, необходимо взять логарифм (основание можно взять произвольно - в нашем случае 10). По имеющимся данным получим lg(10 000 000/1000) = 4.

Остается подсчитать весомость, для чего TF нужно разделить на инвертированный показатель DF, то есть 0,04 /(1/4) = 0,04 *4 = 0,16.

Оцените статью: 4.7 (6)
Следующая статья: Понятие Long tail и его перевод
Предыдущая статья: Каталоги сайтов: предназначение, условия регистрации, новые коммерческие форматы
Написать статью для вас?
Отправьте заявку на статью: если проблема окажется актуальной и массовой – мы опишем ее решение и разместим статью на сайте.
Хочу статью
SEO на экспорт

Эта книга о том, для чего, кому и как именно нужно выходить за рамки Рунета. В книге мы рассмотрели практические аспекты продвижения сайта в Буржунете, раскрыли характерные отличия от «раскрутки» сайта в России.

SEO на экспорт
SEO на экспорт

Эта книга о том, для чего, кому и как именно нужно выходить за рамки Рунета. В книге мы рассмотрели практические аспекты продвижения сайта в Буржунете, раскрыли характерные отличия от «раскрутки» сайта в России.

В книге вы найдете развенчание некоторых распространенных мифов, ответы на основные вопросы о том, где брать англоязычный контент, как работает Google за рубежом, тонкости работы с инструментарием продвижения, будущее ссылочного ранжирования и многое другое.

Читать дальше
Последний SEO-чеклист

Эта книга - самый обширный и затрагивающий ключевые аспекты работы сеошника чек-лист. С одной стороны - это пособие для обучения и проверки собственных знаний в сфере SEO-оптимизации и продвижения. С другой - это должностная инструкция и инструмент контроля для руководителя, который легко поймет, что нужно требовать от квалифицированного SEO-специалиста.

Последний SEO-чеклист
Последний SEO-чеклист

Эта книга - самый обширный и затрагивающий ключевые аспекты работы сеошника чек-лист. С одной стороны - это пособие для обучения и проверки собственных знаний в сфере SEO-оптимизации и продвижения. С другой - это должностная инструкция и инструмент контроля для руководителя, который легко поймет, что нужно требовать от квалифицированного SEO-специалиста.

В книге предложены чек-листы по основным видам работ в сфере поискового продвижения, включая подготовительную работу, формирование семантики, техническую оптимизацию, наращивание ссылочной массы, проверку коммерческих факторов, контент-маркетинг и базовые моменты SMM.

Читать дальше
Черная книга про белый PR

Это книга об управлении репутацией в интернете, в которой рассмотрены главные технологии этого направления деятельности, затронуты этические и глобальные аспекты современного информационного общества. В ней рассмотрена работа с основными сервисами мониторинга, раскрыты правила отработки негатива и создания позитива о бренде, главные инструменты SERM, предложен чек-лист для самостоятельной работы и многое другое.

Черная книга про белый PR
Черная книга про белый PR

Это книга об управлении репутацией в интернете, в которой рассмотрены главные технологии этого направления деятельности, затронуты этические и глобальные аспекты современного информационного общества. В ней рассмотрена работа с основными сервисами мониторинга, раскрыты правила отработки негатива и создания позитива о бренде, главные инструменты SERM, предложен чек-лист для самостоятельной работы и многое другое.

Книга будет интересна владельцам бизнеса и публичным людям, пиарщикам, маркетологам, SEO-специалистам и всем пользователям сети, которые задумываются о вопросах имиджа и репутации.

Читать дальше
Обучение основам копирайтинга

Об эре контента в интернете не рассказывают только ленивые. Без адекватных текстов сегодня не станут успешны как информационные порталы, так и интернет-магазины в большинстве ниш.

Обучение основам копирайтинга
Обучение основам копирайтинга

Об эре контента в интернете не рассказывают только ленивые. Без адекватных текстов сегодня не станут успешны как информационные порталы, так и интернет-магазины в большинстве ниш.

Вместе с тем большой спрос на копирайтеров и перспективы солидных заработков настолько велики, что обучаться профессии хотят чуть ли не все от мала (старшеклассников и выпускников школ) до велика (пенсионеров и пожилых людей, освоивших азы владения ПК).

Читать дальше
Комментарии
Показать сначала:
Новые Старые
Антон
19.08.2017, 15:27
0
–  0
Очень полезная статья.Занимаюсь созданием сайтов на платформе Word Press и решил узнать как работает SEO оптимизация по данному типу платформы.и теперь я понимаю, что один из важнейших аспектов продвижение в поисковике сайта это отношение TF/IDF.В ближайшее время постараюсь изучить всю информацию и как она взаимодействует на Word Press.Оставлю отзыв если у меня, что то выйдет.
Вадим
21.06.2017, 15:00
0
–  0
Рассчитывать показатель TF/IDF самостоятельно и делать какие-либо выводы не будучи специалистом в seo оптимизации сайтов бесполезная трата усилий. Ничего кроме спортивного интереса это не даст.
Лучше заказать продвижение сайта у профессионалов и потратить свою энергию на работу с клиентами. К тому же разных показателей, индексов, соотношений для оценки seo сайта не мало.
саша
06.06.2017, 11:19
0
–  0
любом случае, чтобы знать , как улучшить свои продажи с помощью сайта, нужно быть профессионалом. Рассчитывать тот же коэффициент отношение TF/IDF самостоятельно достаточно сложно. Нужно, как минимум, пройти курсы ;) Поэтому в свое время сильно не заморачивался, сделал заказ у ребят , и продажи выросли ;) Реально экономишь свои время, а на выходе получаешь хороший результат ;)
Написать комментарий
captcha

Новые исследования

2022-12-16 00:00:00

Вы не поверите: что случилось с Яндексом и загадочным Ya.ru

Тяжело проглотить пилюлю, но траектория развития SERP и оптимизации Яндексом своих поисковых алгоритмов окончательно сошла на нет. Почти невозможно представить, что когда-то давно они стремились разработать алгоритмы и инструменты машинного обучения для улучшения результатов поиска. А, помните этот милый слоган: «Яндекс — найдется все»? Да, теперь он остался в прошлом; это было более простое время… время, когда Яндекс был главным помощником во всем, что касалось поиска. Увы, после 25 лет новаторского прогресса эпоха Яндекса закончилась.

Читать 6

2021-07-11 00:00:00

Продуктовый подход - как кратно увеличить продажи с помощью SEO

Поиски лучших способов продвинуть интернет-магазины, увеличить продажи, конверсии, сумму среднего чека и прочего, привели к рождению “продуктового подхода”. Суть метода заключается в оптимизации процесса реализации всех запланированных мероприятий. На пути к достижению бизнес-целей устраняются лишние этапы и задачи, используется ограниченный набор инструментов. Подробнее о методе далее.

Читать 67
Больше исследований

Интервью и мнения SEO-гуру

Для глубокого погружения в профессию оптимизатора, мы настоятельно рекомендуем совмещать чтение с просмотром видео.

Евгений Аралов: главные прогнозы на 2020 (сервисы и методы)

Далеко не каждый специалист может быстро и качественно продвинуть сайт в непростой тематике. Например, букмекерская площадка для ставок в спорте, где SEO чуть ли не ед...

Анализ SEO для СМИ: ведущий эксперт отрасли Галина Бакушева

Для одних Галина Бакушева ассоциируется с каналом Телеграм «Сеошница», для других, она создатель собственного ТВ на фейсбук. Однако такая популярность не г...

Ксения Пескова: качественный продукт приятно рассматривать даже краулерам

Всего два года потребовалось, чтобы стажер SiteClinic, Ксения Пескова, стала не просто тимлидом компании, но и трастовым экспертом в области SEO. Все началось почти ср...

Кирилл Рамирас: лучшие рекомендации по ведению блога для ИМ

Кирилл Рамирас интересен владельцам бизнеса в сети своими успешными проектами, опытом работы в SEO с 2007 года. Регулярное обновление публикаций на Altblog.ru &nd...

Алексей Алексеич: рост и боль в продвижении 2020 - какие прогнозы сбылись?

Сам о себе говорит, что он точно не Андрей, любит котов и смотрит «Битву Престолов». Если серьезно, эксперту 25 лет и с 2011 года основательно занимается с...

Андрей Буйлов: проблемы seo клиента не волнуют!

Андрей Буйлов – известный в сети эксперт по SEO продвижению сайтов. Свою карьеру начинал в конце 90-х. Тогда будущий спикер разнообразных конференций, семинаров ...

Все интервью
Нам доверяют крупные международные компании

Была ли статья для вас полезна?

Что вы хотите добавить или изменить?

В прошлый раз вы начали заполнять форму заявки, но не закончили. Мы сохранили ваши данные, хотите продолжить оформление заявки?   Продолжить... X

Начало – половина дела

Наша анкета достаточно проста и не отнимет у вас много времени.
Нужно просто правильно и вдумчиво заполнить все поля.

Иконка Звезда Иконка Звезда Иконка Звезда

Форма заполнена на 0%

Базовые данные

Адрес вашего сайта *

Иконка Сохранено

Ваш телефон или e-mail *

Иконка Сохранено

Выберите необходимую услугу *