Как действуют краулеры Google
Автор: Rolf Broer
Порядок, в котором Гугл исследует страницы вашего сайта — информация весьма ценная. Если вы ей обладаете, вы можете манипулировать краулерами гугла, заставляя их сперва посещать наиболее важные страницы сайта. Возможность подобной манипуляции особенно ценна, когда речь идет о новом сайте с большим количеством контента — вам будет очень важно, чтобы наиболее существенные для вас разделы были проиндексированы в первую очередь.
Чтобы узнать, как действуют краулеры, мы провели эксперимент, а именно — взяли домен с нулевой историей (никогда не регистрировался ранее, входящих ссылок нет) и создали на нем страницу с 250 ссылками. Ссылки вели на другие страницы, на каждой из которых имелось еще 250 ссылок, ведущих, в свою очередь, на другие страницы, на каждой из которых тоже имелось 250 ссылок. И так далее, и так далее. Тексты ссылок и адреса страниц получили в качестве имен номера от 1 до 250, в соответствии с порядком появления в исходном коде. Затем мы сделали сабмит сайта через службу «addurl» и стали ждать.
В ходе первого визита гуглбот зашел только на корневую страницу (http://example.com/). Через несколько часов он вернулся и посетил все 250 страниц, найденных на главной странице. Начало складываться впечатление, что Гугл делит найденные ссылки на три блока:
- Блок 1: ссылки с 1 по 9
- Блок 2: ссылки с 10 по 99
- Блок 3: ссылки с 100 до 250.
Если гугл-бот заходит на страницу, существуют хорошие шансы на то, что он пройдет по ссылкам одного или нескольких блоков. Ссылки краулятся порциями внутри блока, в случайном порядке. Вероятность того, что сейчас исследуется блок 1 в три раза выше, чем вероятность того, что исследуется блок 2 и в шесть раз выше вероятности того, что сейчас исследуется блок 3. Внутри блока 3 также существует две ссылки, чья вероятность быть исследованными оказывается существенно выше, чем в среднем по блоку. Это ссылка №100 и ссылка №200.
На основании только этих данных нельзя еще уверенно утверждать, что деление найденных ссылок на блоки осуществляется в соответствии с их порядком появления в коде — подобное суждение будет преждевременным. На самом деле определяющим параметром, в соответствии с которым осуществляется разбиение, может оказаться длина URL-адреса, позиция ссылки на странице или даже нечто другое. Чтобы исключить все ошибочные варианты и докопаться до истины, мы провели еще несколько экспериментов.
Полную ясность внесло исследование с использованием случайно разбросанных по страницам ссылок с URL-адресами разной длины. Эти ссылки вели на аналогичные страницы, содержащие ссылки разной длины, разбросанные в случайном порядке. И так далее. Как показали тесты, гугл-бот проходит по ссылкам в порядке увеличения их длины. Полезная информация для продвинутой оптимизации структуры сайта!
Резюме
Принимая в учет полученные результаты, следует признать: значение длины URL-адреса ссылки сильно недооценивается. Осознанный выбор длинны ссылки — хороший способ воздействия на поисковые боты Гугла. Гугл исследует короткие ссылки раньше, а длинные — позже. При этом просто делать все ссылки короткими бессмысленно , ведь если у них будет равная длинна, Гугл будет исследовать их в случайном порядке (Первую часть этого тезиса мы рискнем поставить под сомнение — если предположение об аналогичном принципе ранжирования внешних ссылок, изложенное ниже, верно, то сайты с более короткими адресами в среднем будут иметь преимущество, т.к. указывающие на них ссылки будут пользоваться большим вниманием гугл-ботов. — Прим. ред.) Это значит, что при выбор URL-адреса страницы нужно осуществлять с учетом ее приоритетности и желаемой скорости индексирования.
Итак, такой параметр, как длина указующих ссылок, должен-таки учитываться при проектировании структуры сайта. Вероятно, он важен также и для обмена ссылками. Мы не проводили соответствующих тестов, однако существуют хорошие шансы на то, что Гугл исследует подобным образом не только внутренние, но и внешние ссылки. Это значит, что если ваш адрес размещен на странице рядом с сотнями других ссылок, вероятность перехода бота именно по вашей ссылке будет максимальна, если она обладает самым коротким URL-адресом.
Источник: http://www.onetomarket.com/seo/google%E2%80%99s-crawl-order.html

Август 23-ое, 2010 | 7:21 пп
«Осознанный выбор длинны ссылки»
должно быть «длины»
Август 29-ое, 2010 | 10:37 пп
Эксперемент конечно интересный но согласитесь не достаточен для более жесткого утверждениея что именно так и есть, я думаю что подобные предположения можно бы было строить на основании анализа данных хотябы из 10 подобных сайтов и хотя бы по 5-ть разбросанных доменнов разбросанных по разным подсеткам IP. кроме того за кадром остался самый интересный вопрос, влияние тематики ссылок, а точнее ключевых слов в урлах описанного эксперемента.
Сентябрь 3-ое, 2010 | 5:51 пп
Интересная статья, но пока-что не знаю как применить.