Стемминг

Стемминг - поиск по основе слова, предусматривает морфологические изменения слова. Стемминг выполняет морфологический разбор конкретного слова, определяет общую основу во всех грамматических основах данного слова без учета суффиксов и окончаний.

 

Принцип работы

Поисковые системы активно используют прием стемминга в работе поисковых ботов, что позволяет находить подходящие по морфологии слова веб-документы. А именно, когда вы вводите ключевое слово, поисковые роботы рассматривают и берут в учет все словоформы данного слова и мониторят их в результатах выдачи. Например, если ввести запрос по слову «поезд», то в результатах поиска можно будет увидеть такие словоформы данного слова, как «поезда», «поездом» и так далее.

Компания Яндекс для морфологического поиска создала и предоставила возможность бесплатного, для некомерческого использования программу mystem. Существуют множество версий, для самых популярных операционных систем: Windows, MacOs X, Linux, FreeBSD. Сервис mystem позволяет восстановить первоначальную словоформу, разобрать грамматические характеристики и узнать, часто ли употребляется слово. Версия mystem 1.0 предоставляла морфологический разбор английского текста.

Принципы распределения словоформ значительно разнятся с общепринятыми:

  • распределение времен на прошедшее и непрошедшее;
  • один список словоформ включает в себя множество глаголов, различных по суффиксу, совершенного и несовершенного типа.

Стеммер mystem является фундаментом, на котором построено программное обеспечение для морфологической разметки Национального корпуса русского языка.

 

Стемминг для SEO

Давно известно, что оптимизации на странице, которая обычно фокусируется на длине документа и плотности ключевых слов, может помочь включение слов, связанных с целевым ключевым словом. Родственные слова помогают ранжировать, но также могут улучшить полезность всего текста, его читаемость и степень, в которой документ выглядит «естественным».  Слова представляют собой некоторые из * наиболее * тесно связанных слов, которые вы можете добавить на веб-страницу, и заслуживают пристального внимания при создании контента. В этой публикации будут рассмотрены основы слов, как Google использует основы слов, а также будут разработаны некоторые передовые методы использования основ слов в веб-контенте.

 

Что такое основы слова?

Основы слов можно рассматривать как корень для набора очень похожих по значению слов, которые имеют разную форму. Например: «летучие мыши», «ватин», «бэттер», «бэттед» - все они имеют одну и ту же основу «летучая мышь», которую можно получить, удалив символы суффикса из каждого слова (т. Е. Удалив буквы «s»). От «летучих мышей» и так далее). Однако основа даже не обязательно должна быть допустимым словом. Например, слова «велосипед», «велосипедист» и «велосипед» имеют общее слово «велосипед», что явно не является словом. Однако самое замечательное в основах состоит в том, что если вы можете разделить два слова до их основы, и основы будут одинаковыми, тогда два слова должны иметь почти одинаковое значение и, вероятно, просто разные формы (множественное число, наречие, причастие прошедшего времени, и так далее). Если это так, тогда слова будут настолько близки, насколько вы можете получить с точки зрения релевантности; интуитивно термины «велосипед» и «велосипедист» более связаны, чем «велосипед» и «камера».

 

Алгоритм Портера Stemming

Для определения основы слова были разработаны различные алгоритмы (включая удивительно малоиспользуемую форму обмана: поиск слова в словаре). Самым популярным алгоритмом стемминга является алгоритм портера, точность которого составляет около 85%. Другими словами, два слова, которые должны иметь одну и ту же основу, определяются алгоритмом как имеющие одну и ту же основу примерно в 85% случаев.

 

Поиск и основы слов

Обыденно набирать одно слово и видеть результаты, которые включают или сосредоточены на вариациях этого слова. Вы можете набрать «велосипед» и получить документы о «велосипедисте». Таким образом, понимание того, как Google ведет себя в отношении основ слов, и понимание того, какие варианты помогут вам больше всего, имеют решающее значение для целей оптимизации контента.

Важнейшее исследование того, как Google обрабатывает стемминг

Исследователи из Турции сделали обширные наблюдения относительно поведения Google в отношении стемминга и опубликовали в 2009 году знаменательное исследование по этому поводу под названием «Механизмы стемминга Google».

В ходе исследования была предпринята попытка определить путем анализа результатов поисковой выдачи Google, какие словоформы были возвращены для 18 000 различных слов. Во многих случаях они фокусировались на документах, которые * не * содержали в себе термин запроса, но были возвращены для термина запроса, а затем записывали статистику этих отношений.

 

Методология исследования

Сначала они брали страницу, анализировали ее и выясняли, какие формы термина были на ней, а затем запускали запросы к Google, чтобы узнать, как она проиндексирована. Например, чтобы узнать, проиндексирован ли документ, содержащий слово «велосипедист» на «www.foo.com/page1.html», по термину «велоспорт» (предположим, что он не содержит), его можно запросить просто с помощью [cycling www.foo.com/page1.html]. Они также выполнили некоторые другие причудливые запросы, чтобы включать и исключать различные словоформы при исследовании единственного и множественного числа, а также многословных фраз, но вы поняли общую идею.

Оцените статью: 5.0 (3)
Следующая статья: Неработающие ссылки
Предыдущая статья: Каталоги сайтов: предназначение, условия регистрации, новые коммерческие форматы
Написать статью для вас?
Отправьте заявку на статью: если проблема окажется актуальной и массовой – мы опишем ее решение и разместим статью на сайте.
Хочу статью
При заказе
продвижения
Скидка на
разработку
сайта
Заказать
Приведи
друга
получи
скидку
Подробнее
Специальное
предложение
против
вируса
Получить кп
Комментарии
Показать сначала:
Новые Старые
Маша
23.11.2020, 22:40
0
–  0
О стемминге мне было бы интересно узнать больше. Так что статью я прочитала с удовольствием. Все тут написано подробно и понятно. Обязательно буду пользоваться этой информацией.
Саша
21.06.2020, 21:39
0
–  0
Мне понравилась эта статья. Благодаря ей я изучила всю необходимую информацию о стемминге, и получила ответы на свои вопросы. Так что теперь я буду и дальше развиваться в этом направлении.
Саша
10.06.2020, 22:34
0
–  0
О стемминге я слышу первый раз, но статья мне понравилась. Здесь много полезной и актуальной информации. Надо будет обязательно использовать полученные знания в своей работе.
Влад
17.11.2017, 15:32
0
–  0
Я честно говоря не знал что такое существует, пользуюсь поисковиком как обычно, а оказывается есть еще какие-то другие, ну голосовой знаю. Яндекс mystem - то что - то новенькое? Или просто я об этом еще не знал? Да вот еще интересно будет ли эта программа проста в использовании, в чем ее приоритеты? Голосовой поиск однозначно удобен, а здесь в чем суть? Кто пользуется вам как? Стоит ли устанавливать, или все же лучше обойтись привычными способами поиска?
Дарья
01.08.2017, 14:07
0
–  0
Яндекс молодцы,что используют большое разнообразие платформ для программы mystem.Принципы работы стемминга весьма интересны, поскольку данный метод предоставляет потенциально полезную информацию, даже если она не содержит прямого запроса пользователя. Думаю, стемминг будет полезен для разработчиков сайтов при создании функции «поиска по сайту»
Василий
13.07.2017, 11:16
0
–  0
Ознакомился с программой от Яндекса mystem, и честно говоря, не придумал зачем мне это нужно, а если точно, то каким образом при помощи стемминга можно увеличить естественный трафик. Если поисковые роботы изначально используют этот прием, то это только на руку СЕОшникам. Получается, что наша задача заключается в нахождении ключевых слов, и видоизменять их не обязательно.
Написать комментарий
captcha

Новые исследования

2021-03-03 00:00:00

Повышение продаж применяя данные из отчетов Google Search Console

Google Search Console - это бесплатный  SEO-инструмент, обозначенной в самом названии системы. Способы взаимодействия и примеры практического применения рассматриваются далее.
Читать 54

2021-02-28 00:00:00

Гугл Новости и SEO - все, что нужно знать владельцам сайтов, которые хотят больше трафика из Google News

Владельцы новостных сайтов и медиа-холдинги стремятся занимать первые места в поисковой выдаче среди наиболее популярных сайтов, предоставляющих доступ к контенту разного типа. Как опытные SEO-специалисты, работающие в том числе с публикациями, мы хотим поделиться некоторыми идеями и советами по ранжированию в Google. Речь пойдет исключительно о новостных проектах, имеющих шанс попасть в индекс приложения “Новости Google”. Мы определили ряд практик и методов по оптимизации контента, которые применимы к поисковому продвижению новостных сайтов (страниц, приложений и прочих форматов сети).
Читать 51
Больше исследований

Интервью и мнения SEO-гуру

Для глубокого погружения в профессию оптимизатора, мы настоятельно рекомендуем совмещать чтение с просмотром видео.

Евгений Аралов: главные прогнозы на 2020 (сервисы и методы)

Далеко не каждый специалист может быстро и качественно продвинуть сайт в непростой тематике. Например, букмекерская площадка для ставок в спорте, где SEO чуть ли не ед...

Анализ SEO для СМИ: ведущий эксперт отрасли Галина Бакушева

Для одних Галина Бакушева ассоциируется с каналом Телеграм «Сеошница», для других, она создатель собственного ТВ на фейсбук. Однако такая популярность не г...

Ксения Пескова: качественный продукт приятно рассматривать даже краулерам

Всего два года потребовалось, чтобы стажер SiteClinic, Ксения Пескова, стала не просто тимлидом компании, но и трастовым экспертом в области SEO. Все началось почти ср...

Кирилл Рамирас: лучшие рекомендации по ведению блога для ИМ

Кирилл Рамирас интересен владельцам бизнеса в сети своими успешными проектами, опытом работы в SEO с 2007 года. Регулярное обновление публикаций на Altblog.ru &nd...

Алексей Алексеич: рост и боль в продвижении 2020 - какие прогнозы сбылись?

Сам о себе говорит, что он точно не Андрей, любит котов и смотрит «Битву Престолов». Если серьезно, эксперту 25 лет и с 2011 года основательно занимается с...

Андрей Буйлов: проблемы seo клиента не волнуют!

Андрей Буйлов – известный в сети эксперт по SEO продвижению сайтов. Свою карьеру начинал в конце 90-х. Тогда будущий спикер разнообразных конференций, семинаров ...

Все интервью
Нам доверяют крупные международные компании