Поисковый робот
Поисковый робот (бот, веб-паук, краулер) - программное обеспечение, часть поисковой машины, используемая для перебора веб-страниц для их занесения (вместе с имеющейся информацией) в базу данных.
Разновидности краулеров
- быстрый бот. Эта программа предусматривает добавление в индекс свежей, актуальной информации в сети, занимается её внесением в общую базу;
- индексирующий веб-паук. Данное ПО собирает контент для формирования базы поиска. Такой робот проверяет файлы и страницы на уникальность, релевантность, плотность ключей, водность и другие параметры.
- краулер по графике - изображениям и видео. Данная программа собирает актуальные фото, картинки, видеоролики;
- технический бот. Программа отслеживает работоспособность ресурса, находит скрипты и их цели.
Как работают поисковые роботы?
По принципу работы боты схожи с веб-обозревателями (браузерами). Они анализируют данные, сохраняют их в нужном формате на серверах поисковых машин.
Алгоритм действий сводится к таким операциям, как:
- получение запроса на активизацию;
- сканирование сперва популярных, крупных серверов, затем менее известных;
- выбор релевантных страниц и формирование выдачи с предоставлением её пользователям.
Это общий принцип работы веб-пауков, но у каждого конкретного поисковика имеются специфические особенности.
Что сканирует поисковая система?
Сканирование - это процесс обнаружения, в котором поисковые системы отправляют команду роботов (известных как сканеры или пауки) для поиска нового и обновленного контента. Контент может быть разным - это может быть веб-страница, изображение, видео, PDF-файл и т. Д., Но независимо от формата контент обнаруживается по ссылкам.
Бот поисковой системы начинает с загрузки нескольких веб-страниц, а затем переходит по ссылкам на этих веб-страницах, чтобы найти новые URL-адреса. Перепрыгивая по этому пути ссылок, сканер может находить новый контент и добавлять его в свой индекс под названием Caffeine (в Google) - огромная база данных обнаруженных URL-адресов
Могут ли поисковые системы следить за навигацией по вашему сайту?
Подобно тому, как сканеру необходимо обнаруживать ваш сайт по ссылкам с других сайтов, ему нужен путь ссылок на вашем собственном сайте, чтобы вести его от страницы к странице. Если у вас есть страница, которую вы хотите найти в поисковых системах, но на нее нет ссылок с других страниц, она почти невидима. Многие сайты совершают критическую ошибку, структурируя свою навигацию способами, недоступными для поисковых систем, что препятствует их возможности попадать в список результатов поиска.
Распространенные ошибки навигации, из-за которых сканеры не видят весь ваш сайт:
- Наличие мобильной навигации, которая показывает результаты, отличные от навигации на рабочем столе.
- Любой тип навигации, в которой элементы меню не находятся в HTML, например навигация с поддержкой JavaScript. Поиск стал намного лучше сканировать и понимать Javascript, но это все еще не идеальный процесс . Более надежный способ гарантировать, что что-то будет найдено, понято и проиндексировано поиском, - это поместить это в HTML.
- Персонализация или отображение уникальной навигации для определенного типа посетителей по сравнению с другими может показаться маскировкой для сканера поисковой системы.
- Забудьте про ссылку на главную страницу вашего сайта через навигацию - помните, что ссылки - это пути, по которым сканеры переходят на новые страницы!
Вот почему так важно, чтобы на вашем веб-сайте была четкая навигация и полезная структура папок URL-адресов.
Быстробот поисковой системы Яндекс
Быстробот (сокращенно ББ) — бот Яндекса, индексирующий порталы новостей и блоги.
Принцип индексации
Хранение страниц во временной базе. При размещении новой статьи на сайте, ее посещает быстробот и заносит во временную базу. Проидексированные страницы ранжируются по ключевым запросам. Контент уже через 2 часа появляется в выдаче Яндекса.
Для привлечения быстробота используются следующие приемы:
-
регулярное добавление новой инфы на сайт;
создание RSS ленты. Она говорит о том, что сайт не забросили, что на нем новая инфа регулярно появляется. На такие сайты быстробот ходит охотнее всего.
Зеркальщик
Зеркальщик — это робот поисковой системы, который склеивает зеркала сайтов.
Зеркало сайта — это точная копия ресурса, созданная с такими целями:
- распределение нагрузки на популярный проект;
- сохранение копии сайта,
- бэкап контента и др.
Обнаруживая сайты с одинаковой информацией, робот зеркальщик выбирает один из них в качестве главного зеркала, а остальные не индексирует.
Основное зеркало для робота Яндекса указывается в файле robots.txt при помощи директивы host. Это не гарантирует, что зеркальщик определит указанное в ней зеркало как основное, но значение директивы он обязательно учитывает при принятии решения.