Стемминг - поиск по основе слова, предусматривает морфологические изменения слова. Стемминг выполняет морфологический разбор конкретного слова, определяет общую основу во всех грамматических основах данного слова без учета суффиксов и окончаний.
Принцип работы
Поисковые системы активно используют прием стемминга в работе поисковых ботов, что позволяет находить подходящие по морфологии слова веб-документы. А именно, когда вы вводите ключевое слово, поисковые роботы рассматривают и берут в учет все словоформы данного слова и мониторят их в результатах выдачи. Например, если ввести запрос по слову «поезд», то в результатах поиска можно будет увидеть такие словоформы данного слова, как «поезда», «поездом» и так далее.
Компания Яндекс для морфологического поиска создала и предоставила возможность бесплатного, для некомерческого использования программу mystem. Существуют множество версий, для самых популярных операционных систем: Windows, MacOs X, Linux, FreeBSD. Сервис mystem позволяет восстановить первоначальную словоформу, разобрать грамматические характеристики и узнать, часто ли употребляется слово. Версия mystem 1.0 предоставляла морфологический разбор английского текста.
Принципы распределения словоформ значительно разнятся с общепринятыми:
- распределение времен на прошедшее и непрошедшее;
- один список словоформ включает в себя множество глаголов, различных по суффиксу, совершенного и несовершенного типа.
Стеммер mystem является фундаментом, на котором построено программное обеспечение для морфологической разметки Национального корпуса русского языка.