Шингл
Шингл - фрагмент текста, определенное количество последовательно идущих слов, используемое в алгоритмах определения уникальности текстового контента. Понятие активно используется в SEO и копирайтинге (рерайтинге). В переводе с английского слово shingle означает «кирпичик» или «черепица». В контексте текстов - это небольшая часть публикации.
Виды шинглов
Фрагменты, как правило, классифицируются по количеству слов, входящих в шингл. По данному критерию они могут находиться в диапазоне от 2 до 10 слов. Чем короче будет шингл, тем выше точность проверки на уникальность, но в то же время и проблематичнее обеспечить её, ведь, к примеру, фрагменты из 2 или 3 слов имеют в Интернете множество совпадений, как правило, даже вне зависимости от тематики текста. В отдельных программах проверки плагиата в настройках можно задать размер шингла (обычно в диапазоне между 2 и 10).
Принцип проверки текста по шинглам
Если выбрать четырех словный шингл, то проверяемая на уникальность публикация будет разбита на условные фрагменты, каждая из которых состоит из четырех последовательно идущих слов, причем последнее слово в каждой фразе будет выступать первым для следующего фрагмента. И все эти части текста будут сравниваться с другими, уже опубликованными на сайтах в Интернете статьями. Если на сторонних ресурсах будет найдено повторение, то данный текстовый отрезок будет считаться неуникальным.
Какой размер шингла оптимален?
Нередко между заказчиками и авторами текста возникают разногласия, связанные с длиной шингла. Так, SEO-оптимизаторы или вебмастера зачастую не просто хотят получить уникальные публикации (что вполне логично), но и требуют, чтобы эти 100% были при шингле 3. Добиться подобного на практике бывает проблематично, ведь в данном случае различные словосочетания из трех слов не должны иметь дубликатов в Интернете. К примеру, при использовании в тексте весьма популярных и часто встречаемых фраз, вроде «проверка уникальности текста» или «оптимизация под ключевые слова», 100% уникальности с трех словным шинглом не добиться.
Более реальный и оптимальный для авторов и заказчиков размер - 4-5 слов. Больше - тоже не правильно. Это слишком упростит работу рерайтера/копирайтера, позволяя ему несколько изменять исходные тексты. Задать параметры «размер шингла» в некоторых программах проверки уникальности можно вручную, тем самым поэкспериментировать с текстами.