Стемминг

Стемминг - поиск по основе слова, предусматривает морфологические изменения слова. Стемминг выполняет морфологический разбор конкретного слова, определяет общую основу во всех грамматических основах данного слова без учета суффиксов и окончаний.

стемминг и лемматизация это

Принцип работы

Поисковые системы активно используют прием стемминга в работе поисковых ботов, что позволяет находить подходящие по морфологии слова веб-документы. А именно, когда вы вводите ключевое слово, поисковые роботы рассматривают и берут в учет все словоформы данного слова и мониторят их в результатах выдачи. Например, если ввести запрос по слову «поезд», то в результатах поиска можно будет увидеть такие словоформы данного слова, как «поезда», «поездом» и так далее.

Компания Яндекс для морфологического поиска создала и предоставила возможность бесплатного, для некомерческого использования программу mystem. Существуют множество версий, для самых популярных операционных систем: Windows, MacOs X, Linux, FreeBSD. Сервис mystem позволяет восстановить первоначальную словоформу, разобрать грамматические характеристики и узнать, часто ли употребляется слово. Версия mystem 1.0 предоставляла морфологический разбор английского текста.

Принципы распределения словоформ значительно разнятся с общепринятыми:

распределение времен на прошедшее и непрошедшее;
один список словоформ включает в себя множество глаголов, различных по суффиксу, совершенного и несовершенного типа.

Стеммер mystem является фундаментом, на котором построено программное обеспечение для морфологической разметки Национального корпуса русского языка.

Стемминг для SEO

Давно известно, что оптимизации на странице, которая обычно фокусируется на длине документа и плотности ключевых слов, может помочь включение слов, связанных с целевым ключевым словом. Родственные слова помогают ранжировать, но также могут улучшить полезность всего текста, его читаемость и степень, в которой документ выглядит «естественным». Слова представляют собой некоторые из * наиболее * тесно связанных слов, которые вы можете добавить на веб-страницу, и заслуживают пристального внимания при создании контента. В этой публикации будут рассмотрены основы слов, как Google использует основы слов, а также будут разработаны некоторые передовые методы использования основ слов в веб-контенте.

Что такое основы слова?

Основы слов можно рассматривать как корень для набора очень похожих по значению слов, которые имеют разную форму. Например: «летучие мыши», «ватин», «бэттер», «бэттед» - все они имеют одну и ту же основу «летучая мышь», которую можно получить, удалив символы суффикса из каждого слова (т. Е. Удалив буквы «s»). От «летучих мышей» и так далее). Однако основа даже не обязательно должна быть допустимым словом. Например, слова «велосипед», «велосипедист» и «велосипед» имеют общее слово «велосипед», что явно не является словом. Однако самое замечательное в основах состоит в том, что если вы можете разделить два слова до их основы, и основы будут одинаковыми, тогда два слова должны иметь почти одинаковое значение и, вероятно, просто разные формы (множественное число, наречие, причастие прошедшего времени, и так далее). Если это так, тогда слова будут настолько близки, насколько вы можете получить с точки зрения релевантности; интуитивно термины «велосипед» и «велосипедист» более связаны, чем «велосипед» и «камера».

Алгоритм Портера Stemming

Для определения основы слова были разработаны различные алгоритмы (включая удивительно малоиспользуемую форму обмана: поиск слова в словаре). Самым популярным алгоритмом стемминга является алгоритм портера, точность которого составляет около 85%. Другими словами, два слова, которые должны иметь одну и ту же основу, определяются алгоритмом как имеющие одну и ту же основу примерно в 85% случаев.

Поиск и основы слов

Обыденно набирать одно слово и видеть результаты, которые включают или сосредоточены на вариациях этого слова. Вы можете набрать «велосипед» и получить документы о «велосипедисте». Таким образом, понимание того, как Google ведет себя в отношении основ слов, и понимание того, какие варианты помогут вам больше всего, имеют решающее значение для целей оптимизации контента.

Важнейшее исследование того, как Google обрабатывает стемминг

Исследователи из Турции сделали обширные наблюдения относительно поведения Google в отношении стемминга и опубликовали в 2009 году знаменательное исследование по этому поводу под названием «Механизмы стемминга Google».

В ходе исследования была предпринята попытка определить путем анализа результатов поисковой выдачи Google, какие словоформы были возвращены для 18 000 различных слов. Во многих случаях они фокусировались на документах, которые * не * содержали в себе термин запроса, но были возвращены для термина запроса, а затем записывали статистику этих отношений.

Методология исследования

Сначала они брали страницу, анализировали ее и выясняли, какие формы термина были на ней, а затем запускали запросы к Google, чтобы узнать, как она проиндексирована. Например, чтобы узнать, проиндексирован ли документ, содержащий слово «велосипедист» на «www.foo.com/page1.html», по термину «велоспорт» (предположим, что он не содержит), его можно запросить просто с помощью [cycling www.foo.com/page1.html]. Они также выполнили некоторые другие причудливые запросы, чтобы включать и исключать различные словоформы при исследовании единственного и множественного числа, а также многословных фраз, но вы поняли общую идею.

Прокачивайте мозги с Topodin

Подписка!

Оставьте свою почту и будете в числе первых получаться релизы всех наших книг, а также подборки статей и приглашения на вебинары.

Подтверждая подписку вы продаете душу дьяволу и расписываетесь в собственной беспомощности.

Популярные услуги

Раскрутка сайтов Классический эффективный метод продвижения вашего бизнеса и повышения продаж через Интернет.

Разработка интернет-магазина Услуга направлена на быстрый и высокомаржинальный запуск продаж большого числа товаров.

Доработка сайта Сопровождение и поддержание работы вашего интернет-проекта нашими специалистами удаленно.

Все услуги

Получить КП

Заполнение формы гарантирует получение консультации по любой из наших услуг. Перезваниваем в течение трех часов. Экспрес-аудит в подарок.

Отправить заявку

По всем вопросам, связанным
с услугами, обращайтесь
сюда

Кто мы такие?

Topodin

Компания TOPODIN - лидер рынка интернет-маркетинга СНГ. Была основана в 2012 году. За несколько лет проделала большой путь от начинающей фирмы до крупного игрока в высококонкурентной среде.

Сегодня «Топодин» - это компания, предоставляющая услуги в сфере интернет-рекламы, веб-разработки, аналитики и консалтинга.

В штате Topodin более 30 специалистов, а опыт каждого в сфере интернет-маркетинга превышает 7 лет.

Обсудить проект

Оцените статью: 5.0 (3)

Следующая статья: Неработающие ссылки

Предыдущая статья: Каталоги сайтов: предназначение, условия регистрации, новые коммерческие форматы

При заказе
продвижения

Скидка на
разработку
сайта

Заказать

Приведи
друга

получи
скидку

Подробнее

Специальное
предложение

против
вируса

Получить кп

Как вам статья?

Вообще не айсНормульШикардос!

SEO на экспорт

Эта книга о том, для чего, кому и как именно нужно выходить за рамки Рунета. В книге мы рассмотрели практические аспекты продвижения сайта в Буржунете, раскрыли характерные отличия от «раскрутки» сайта в России.

Читайте онлайн Скачать

SEO на экспорт

В книге вы найдете развенчание некоторых распространенных мифов, ответы на основные вопросы о том, где брать англоязычный контент, как работает Google за рубежом, тонкости работы с инструментарием продвижения, будущее ссылочного ранжирования и многое другое.

Последний SEO-чеклист

Эта книга - самый обширный и затрагивающий ключевые аспекты работы сеошника чек-лист. С одной стороны - это пособие для обучения и проверки собственных знаний в сфере SEO-оптимизации и продвижения. С другой - это должностная инструкция и инструмент контроля для руководителя, который легко поймет, что нужно требовать от квалифицированного SEO-специалиста.

Читайте онлайн Скачать

Последний SEO-чеклист

В книге предложены чек-листы по основным видам работ в сфере поискового продвижения, включая подготовительную работу, формирование семантики, техническую оптимизацию, наращивание ссылочной массы, проверку коммерческих факторов, контент-маркетинг и базовые моменты SMM.

Черная книга про белый PR

Это книга об управлении репутацией в интернете, в которой рассмотрены главные технологии этого направления деятельности, затронуты этические и глобальные аспекты современного информационного общества. В ней рассмотрена работа с основными сервисами мониторинга, раскрыты правила отработки негатива и создания позитива о бренде, главные инструменты SERM, предложен чек-лист для самостоятельной работы и многое другое.

Читайте онлайн Скачать

Черная книга про белый PR

Книга будет интересна владельцам бизнеса и публичным людям, пиарщикам, маркетологам, SEO-специалистам и всем пользователям сети, которые задумываются о вопросах имиджа и репутации.

Обучение основам копирайтинга

Об эре контента в интернете не рассказывают только ленивые. Без адекватных текстов сегодня не станут успешны как информационные порталы, так и интернет-магазины в большинстве ниш.

Читайте онлайн Скачать

Обучение основам копирайтинга

Вместе с тем большой спрос на копирайтеров и перспективы солидных заработков настолько велики, что обучаться профессии хотят чуть ли не все от мала (старшеклассников и выпускников школ) до велика (пенсионеров и пожилых людей, освоивших азы владения ПК).

Комментарии

Показать сначала:

Новые Старые

Елена

27.09.2021, 15:24

+ 0

– 0

Как интересно, впервые слышу про этот стемминг. Хотя лемматизация мне знакома, ее используют сервисы проверки уникальности текстов. Только так и не нашла в статье, есть ли программы или онлайн приложения для анализа текста подобным образом. С удовольствием бы почистила тексты от однокоренных слов в одном предложении.

Ответить

Маша

23.11.2020, 22:40

+ 0

– 0

О стемминге мне было бы интересно узнать больше. Так что статью я прочитала с удовольствием. Все тут написано подробно и понятно. Обязательно буду пользоваться этой информацией.

Ответить

Саша

21.06.2020, 21:39

+ 0

– 0

Мне понравилась эта статья. Благодаря ей я изучила всю необходимую информацию о стемминге, и получила ответы на свои вопросы. Так что теперь я буду и дальше развиваться в этом направлении.

Ответить

Саша

10.06.2020, 22:34

+ 1

– 0

О стемминге я слышу первый раз, но статья мне понравилась. Здесь много полезной и актуальной информации. Надо будет обязательно использовать полученные знания в своей работе.

Ответить

Влад

17.11.2017, 15:32

+ 0

– 0

Я честно говоря не знал что такое существует, пользуюсь поисковиком как обычно, а оказывается есть еще какие-то другие, ну голосовой знаю. Яндекс mystem - то что - то новенькое? Или просто я об этом еще не знал? Да вот еще интересно будет ли эта программа проста в использовании, в чем ее приоритеты? Голосовой поиск однозначно удобен, а здесь в чем суть? Кто пользуется вам как? Стоит ли устанавливать, или все же лучше обойтись привычными способами поиска?

Ответить

Дарья

01.08.2017, 14:07

+ 1

– 0

Яндекс молодцы,что используют большое разнообразие платформ для программы mystem.Принципы работы стемминга весьма интересны, поскольку данный метод предоставляет потенциально полезную информацию, даже если она не содержит прямого запроса пользователя. Думаю, стемминг будет полезен для разработчиков сайтов при создании функции «поиска по сайту»

Ответить

Василий

13.07.2017, 11:16

+ 0

– 0

Ознакомился с программой от Яндекса mystem, и честно говоря, не придумал зачем мне это нужно, а если точно, то каким образом при помощи стемминга можно увеличить естественный трафик. Если поисковые роботы изначально используют этот прием, то это только на руку СЕОшникам. Получается, что наша задача заключается в нахождении ключевых слов, и видоизменять их не обязательно.

Ответить

Написать комментарий

Новые исследования

2025-02-27 00:00:00

GPT-4.5: Умнее, человечнее, безопаснее — куда ведёт нас OpenAI?

Открывая системную карту GPT-4.5 от OpenAI, датированную 27 февраля 2025 года, вы ждёте технических деталей, но находите нечто большее — окно в эру умного и чуткого ИИ. Читатели хотят знать: насколько она точна, безопасна и человечна? Этот документ обещает не только цифры, но и историю о балансе между прорывом и ответственностью. Готовьтесь к открытиям

Читать 441

2022-12-16 00:00:00

Вы не поверите: что случилось с Яндексом и загадочным Ya.ru

Тяжело проглотить пилюлю, но траектория развития SERP и оптимизации Яндексом своих поисковых алгоритмов окончательно сошла на нет. Почти невозможно представить, что когда-то давно они стремились разработать алгоритмы и инструменты машинного обучения для улучшения результатов поиска. А, помните этот милый слоган: «Яндекс — найдется все»? Да, теперь он остался в прошлом; это было более простое время… время, когда Яндекс был главным помощником во всем, что касалось поиска. Увы, после 25 лет новаторского прогресса эпоха Яндекса закончилась.

Читать 7

Больше исследований

Интервью и мнения SEO-гуру

Для глубокого погружения в профессию оптимизатора, мы настоятельно рекомендуем совмещать чтение с просмотром видео.

Евгений Аралов: главные прогнозы на 2020 (сервисы и методы)

Далеко не каждый специалист может быстро и качественно продвинуть сайт в непростой тематике. Например, букмекерская площадка для ставок в спорте, где SEO чуть ли не ед...

Анализ SEO для СМИ: ведущий эксперт отрасли Галина Бакушева

Для одних Галина Бакушева ассоциируется с каналом Телеграм «Сеошница», для других, она создатель собственного ТВ на фейсбук. Однако такая популярность не г...

Ксения Пескова: качественный продукт приятно рассматривать даже краулерам

Всего два года потребовалось, чтобы стажер SiteClinic, Ксения Пескова, стала не просто тимлидом компании, но и трастовым экспертом в области SEO. Все началось почти ср...

Кирилл Рамирас: лучшие рекомендации по ведению блога для ИМ

Кирилл Рамирас интересен владельцам бизнеса в сети своими успешными проектами, опытом работы в SEO с 2007 года. Регулярное обновление публикаций на Altblog.ru &nd...

Алексей Алексеич: рост и боль в продвижении 2020 - какие прогнозы сбылись?

Сам о себе говорит, что он точно не Андрей, любит котов и смотрит «Битву Престолов». Если серьезно, эксперту 25 лет и с 2011 года основательно занимается с...

Андрей Буйлов: проблемы seo клиента не волнуют!

Андрей Буйлов – известный в сети эксперт по SEO продвижению сайтов. Свою карьеру начинал в конце 90-х. Тогда будущий спикер разнообразных конференций, семинаров ...

Все интервью

Нам доверяют крупные международные компании