Стемминг
Стемминг - поиск по основе слова, предусматривает морфологические изменения слова. Стемминг выполняет морфологический разбор конкретного слова, определяет общую основу во всех грамматических основах данного слова без учета суффиксов и окончаний.
Принцип работы
Поисковые системы активно используют прием стемминга в работе поисковых ботов, что позволяет находить подходящие по морфологии слова веб-документы. А именно, когда вы вводите ключевое слово, поисковые роботы рассматривают и берут в учет все словоформы данного слова и мониторят их в результатах выдачи. Например, если ввести запрос по слову «поезд», то в результатах поиска можно будет увидеть такие словоформы данного слова, как «поезда», «поездом» и так далее.
Компания Яндекс для морфологического поиска создала и предоставила возможность бесплатного, для некомерческого использования программу mystem. Существуют множество версий, для самых популярных операционных систем: Windows, MacOs X, Linux, FreeBSD. Сервис mystem позволяет восстановить первоначальную словоформу, разобрать грамматические характеристики и узнать, часто ли употребляется слово. Версия mystem 1.0 предоставляла морфологический разбор английского текста.
Принципы распределения словоформ значительно разнятся с общепринятыми:
- распределение времен на прошедшее и непрошедшее;
- один список словоформ включает в себя множество глаголов, различных по суффиксу, совершенного и несовершенного типа.
Стеммер mystem является фундаментом, на котором построено программное обеспечение для морфологической разметки Национального корпуса русского языка.
Стемминг для SEO
Давно известно, что оптимизации на странице, которая обычно фокусируется на длине документа и плотности ключевых слов, может помочь включение слов, связанных с целевым ключевым словом. Родственные слова помогают ранжировать, но также могут улучшить полезность всего текста, его читаемость и степень, в которой документ выглядит «естественным». Слова представляют собой некоторые из * наиболее * тесно связанных слов, которые вы можете добавить на веб-страницу, и заслуживают пристального внимания при создании контента. В этой публикации будут рассмотрены основы слов, как Google использует основы слов, а также будут разработаны некоторые передовые методы использования основ слов в веб-контенте.
Что такое основы слова?
Основы слов можно рассматривать как корень для набора очень похожих по значению слов, которые имеют разную форму. Например: «летучие мыши», «ватин», «бэттер», «бэттед» - все они имеют одну и ту же основу «летучая мышь», которую можно получить, удалив символы суффикса из каждого слова (т. Е. Удалив буквы «s»). От «летучих мышей» и так далее). Однако основа даже не обязательно должна быть допустимым словом. Например, слова «велосипед», «велосипедист» и «велосипед» имеют общее слово «велосипед», что явно не является словом. Однако самое замечательное в основах состоит в том, что если вы можете разделить два слова до их основы, и основы будут одинаковыми, тогда два слова должны иметь почти одинаковое значение и, вероятно, просто разные формы (множественное число, наречие, причастие прошедшего времени, и так далее). Если это так, тогда слова будут настолько близки, насколько вы можете получить с точки зрения релевантности; интуитивно термины «велосипед» и «велосипедист» более связаны, чем «велосипед» и «камера».
Алгоритм Портера Stemming
Для определения основы слова были разработаны различные алгоритмы (включая удивительно малоиспользуемую форму обмана: поиск слова в словаре). Самым популярным алгоритмом стемминга является алгоритм портера, точность которого составляет около 85%. Другими словами, два слова, которые должны иметь одну и ту же основу, определяются алгоритмом как имеющие одну и ту же основу примерно в 85% случаев.
Поиск и основы слов
Обыденно набирать одно слово и видеть результаты, которые включают или сосредоточены на вариациях этого слова. Вы можете набрать «велосипед» и получить документы о «велосипедисте». Таким образом, понимание того, как Google ведет себя в отношении основ слов, и понимание того, какие варианты помогут вам больше всего, имеют решающее значение для целей оптимизации контента.
Важнейшее исследование того, как Google обрабатывает стемминг
Исследователи из Турции сделали обширные наблюдения относительно поведения Google в отношении стемминга и опубликовали в 2009 году знаменательное исследование по этому поводу под названием «Механизмы стемминга Google».
В ходе исследования была предпринята попытка определить путем анализа результатов поисковой выдачи Google, какие словоформы были возвращены для 18 000 различных слов. Во многих случаях они фокусировались на документах, которые * не * содержали в себе термин запроса, но были возвращены для термина запроса, а затем записывали статистику этих отношений.
Методология исследования
Сначала они брали страницу, анализировали ее и выясняли, какие формы термина были на ней, а затем запускали запросы к Google, чтобы узнать, как она проиндексирована. Например, чтобы узнать, проиндексирован ли документ, содержащий слово «велосипедист» на «www.foo.com/page1.html», по термину «велоспорт» (предположим, что он не содержит), его можно запросить просто с помощью [cycling www.foo.com/page1.html]. Они также выполнили некоторые другие причудливые запросы, чтобы включать и исключать различные словоформы при исследовании единственного и множественного числа, а также многословных фраз, но вы поняли общую идею.