Индексируя и ранжируя различные документы, найденные в сети, и стремясь обеспечить пользователей наиболее релевантной выдачей, поисковая система полагается не только на контент найденных страниц – она также учитывает количество и качество ссылок, ведущих на данную страницу.
Поисковая система – например, Google – может решить, что ваша страница релевантна пользовательскому запросу, основываясь на ее содержимом и на тексте ссылок, указывающих на данную страницу.
Она также может попытаться составить некое представление об «отношениях» между страницами, посмотрев на структуру их ссылочных связей. Для этой цели Google использует систему Pagerank, которая вычисляет меру важности отдельных страниц посредством анализа сети ссылок. Эта мера важности может быть упрощенно представлена как вероятность того, что пользователь окажется на данной странице, случайным образом кликая по ссылкам в процессе свободного интернет-серфинга.
Итак, на конечное ранжирование страниц влияет комбинация трех основных факторов: релевантность контента страницы введенному запросу, текст ссылок, указывающих на страницу, а также мера важности данной страницы, выводимая из структуры ее ссылочных связей с другими страницами. Google может корректировать ранжирование топовых документов, используя сигналы совсем иной природы, тем не менее именно эти факторы оказывают решающее влияние на то, увидят ли данную страницу конечные пользователи.
Системы ссылочного ранжирования наподобие Pagerank оказываются далеко не идеальным решением. Ссылками можно манипулировать, стремясь вывести ту или иную страницу в топ.
Патент, полученный Google на днях, описывает, как можно выявить и нейтрализовать манипуляции со ссылками и тем самым отсеять из выдачи страницы, получившие высокий Pagerank благодаря ссылочному спаму.
Читать статью целиком »