О дублировании содержания сайтов.
На декабрьской конференции разработчиков поисковых систем “SES Chicago” в очередной раз была затронута тема дублированного содержания сайтов. В оригинале термин звучит как “duplicate content” и может быть переведен как «скопированное, неоригинальное, дублированное содержание».
Для начала разберемся, что включает в себя это понятие. Неоригинальным содержанием называют материалы, находящиеся в пределах одного сайта или разбросанные по сети и полностью идентичные. Тексты могут повторять друг друга по разным причинам.
Например, на сайте могут находиться похожие страницы, одна из которых предназначена для корректного отображения браузером ПК, а другая – браузером смартфона. Один и тот же текст может быть представлен в варианте, удобном для прочтения пользователем, и в формате для печати принтером. В некоторых случаях содержимое страниц копируют и распространяют по сети для ускорения раскрутки сайта.
Как неуникальные страницы могут повредить поисковым системам? Один и тот же текстовый материал можно опубликовать на нескольких сайтах и заполнить ссылками на него всю выдачу поисковика по определенным ключевым словам. Таким образом, какую бы ссылку ни выбрал пользователь, он окажется во владениях одного и того же «монополиста».
Пользователю вряд ли понравится отсутствие выбора, и поэтому поисковая система захочет отфильтровать идентичные результаты поиска. Жертвой подобной фильтрации может стать сайт, предлагающий разные версии одного и того же материала для читателя и для принтера. Поисковая система автоматически выберет один из вариантов для отображения в списке результатов поиска, поэтому лучше указать предпочтительный вариант в файле «robots.txt». Версия для принтера может выглядеть не самым презентабельным образом.
Вот несколько советов от Google, которые помогут веб-мастерам оптимизировать сайты с повторяющимися материалами для эффективной и корректной индексации поисковыми краулерами.
· Указывайте страницы, которые разрешено индексировать поисковым роботам, в файле robots.txt. Не предназначенная для просмотра пользователем страница никогда не окажется в выдаче поисковой системы.
· Используйте 301 редиректы, когда меняете структуру сайта, чтобы перенаправлять пользователей и указывать путь роботам.
· При перелинковке страниц сайта будьте последовательны, придерживайтесь одной схемы и не сбивайте с толку посетителей и роботов.
· Если ваш сайт представлен в сети на нескольких языках, по возможности, размещайте каждую его версию на национальном домене первого уровня. Поисковой системе легче будет определить, что сайт предназначен для немецкой аудитории, если его название будет выглядеть как site.de, а не de.site.com.
· Если вы поставляете информацию для других ресурсов, следите за тем, чтобы в конце каждого текста партнеры давали ссылку на оригинал статьи на вашем сайте.
· Часто внизу страницы размещают шаблонную фразу: «Все права защищены». Не занимайте ею драгоценное место. Краткое содержание материалов страницы будет полезнее и для читателя, и для робота-индексатора.
· Не держите на сайте пустых или не готовых страниц, если на них может зайти пользователь. Ссылка должна вести к информативным материалам, а не к надписи «Извините, раздел не готов».
· Если вы заметили, что статью с вашего сайта кто-то «позаимствовал», не огорчайтесь. Во-первых, кража вашей интеллектуальной собственности не повредит вашим позициям в выдаче. А во-вторых, подавайте заявку на защиту авторских прав в Google (http://www.google.com/dmca.html).

Декабрь 26-ое, 2006 | 4:49 пп
>> Если вы заметили, что статью с вашего сайта кто-то «позаимствовал», не огорчайтесь. Во-первых, кража вашей >> интеллектуальной собственности не повредит вашим позициям в выдаче.
Да? А как же неоднократные истории, когда сайт оригинал страдает от украденного кем то контента? И падает в выдаче?
У нас так было насколько я помню, и еще много историй в форумах. К сожалению сейчас нету времени поискать ссылки, чтобы не быть совсем уж голословным.
Если кто сталкивался, отпишитесь в комменты
Декабрь 26-ое, 2006 | 6:35 пп
Вот несколько советов от Google:
Раслабьтесь и не сопротивляйтесь, я собираюсь сожрать ваши мозги.
Декабрь 27-ое, 2006 | 4:43 пп
хыхы, ЖЖош !
Декабрь 28-ое, 2006 | 1:50 пп
Поскольку эта статья находиться в категории «Webmaster Tools, Resources and Scripts» хочется непременно упомянуть ресурс позволяющий отслеживать копирование контента – http://www.copyscape.com/ возможно он не самый лучший в данной области и разумеется не единственный, но это уже зависит от ваших личных требований.