Регистрация Вход

Зарегистрирован: 16.11.2004

Ранжирование - методы ранжирования документов в поисковых системах

Введение
Ранжирование документов в поисковых машинах - процесс весьма и весьма сложный. Разработчики постоянно пытаются совершенствовать алгоритмы ранжирования, преследуя, как правило, две большие цели - улучшение качества поиска и уменьшение возможности искусственных воздействий на ранжирование результатов. Та или иная поисковая машина может учитывать множество факторов, так или иначе влияющих на положение конкретного документа в выдаче по конкретному запросу. Большую часть своих достижений в области ранжирования документов разработчики поисковых алгоритмов хранят в строгом секрете, ограничиваясь публикациями либо каких-то весьма общих фактов, либо, наоборот, описанием очень частных задач, возможно, чрезвычайно интересных с точки зрения разработчика, но мало полезных на практике тем, что пытается улучшить ранжирование конкретного сайта по конкретным запросам. Специалисты в области SEO, поэтому, очень ограничены в информации и могут добывать ее только экспериментальным путем, оценивая работу поисковых алгоритмов путем построения так называемой модели "чёрного ящика" с известными выходными и входными параметрами и неизвестным внутренним устройством. Манипулируя входной информацией, т.е. изменяя для конкретных документов факторы, которые учитываются при ранжировании, и оценивая изменение выходной информацией, т.е. положением этих документов в выдаче по конкретным запросам, можно сделать определенные выводы о том, какие факторы и каким образом учитываются поисковыми машинами. Это знание позволит сформировать оптимальную стратегию продвижения ресурса в поисковых машинах в целью привлечения максимального количества целевых посетителей при минимальных затратах.

Специалистов по поисковому продвижению, работающих в России, интересуют, как правило, два сектора рынка, на котором они предлагают свои услуги - русскоязычный и англоязычный поиск. По данным статистических сервисов SpyLog и LiveInternet структура русскоязычного поискового трафика на октябрь 2005 года следующая - около 50% приходится на долю Яндекса, около 20% - на долю Рамблера, и порядка 15% составляет поисковый трафик из Google. Среди остальных поисковых сервисов, только, пожалуй, поиск от Mail.Ru, использующий поисковую выдачу того же Google, с трудом дотягивает до 5%-ного барьера. В англоязычном сегменте по данным агентств Nielsen NetRatings и comScore Media Metrix, поисковый трафик поделен примерно в тех же пропорциях между тремя основными поисковыми сервисами - Google, который с учетом порталов использующих его поисковую выдачу (таких как, например, AOL и Netscape) обслуживает примерно половину поисковых запросов, Yahoo! с долей около 30% и MSN Search с долей порядка 15%. Поэтому влияние различных факторов на ранжирование мы будем оценивать на примере именно этих поисковых машин. Все эти поисковые машины используют одинаковый набор основополагающих факторов, которые можно разделить на 3 большие категории:

1. Статические (не зависящие от запроса).

Как правило, это некий агрегированный показатель, который носит название статического ранга или авторитетности документа и зависит от количества и ранга документов, ссылающихся на данный документ. Он является внешним фактором, так зависит только от внешних показателей, не принимая во внимание содержимое документа.

2. Динамические (зависящие от запроса) внутренние (страничные).

Они учитывают степень соответствия запросу содержимого самого документа.

3. Динамические (зависящие от запроса) внешние (ссылочные).

Как правило, они учитывают степень соответствия запросу текста ссылок на документ (в среде русскоязычных специалистов по оптимизации такой фактор носит название "ссылочное ранжирование"). Также одним из факторов может быть динамический (т.е. зависящий от запроса) ранг документа.

Конкретными поисковыми машинами может использоваться при ранжировании ряд дополнительных факторов. Например, количество документов с сайта, релевантных запросу, но мы опустим их рассмотрение в виду незначительности по сравнению с основными факторами. Рассмотрим основные факторы поподробнее.

1. Статические факторы
Статические факторы измеряют важность или авторитетность страницы, не обращая внимание на ее содержание.

Наиболее известным примером реализации статического фактора является показатель PageRank, использующийся в поисковой машине Google. В основу его вычисления положена вероятностная модель пользователя, блуждающего по документам сети. Предполагается, что он с равной вероятностью может перейти по любой ссылке, которую содержит документ. Так же с некоторой одинаковой для каждого документа вероятностью, пользователь может попасть на него не по ссылке с другого документа (например, набрав вручную адрес документа в адресной строке браузера или воспользовавшись "закладкой"). Таким образом, вероятность того, что пользователь посетит конкретный документ, которая и принята за ранг документа PageRank, равна

http://www.promo-techart.ru/image/analisys/2005-1.gif

где
PRa - PageRank рассматриваемой страницы,
d - коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не попадет на следующий документ каким-нибудь другим образом),
N - общее количество документов,
PRi - PageRank i-й страницы, ссылающейся на страницу а,
Ci - общее число ссылок на i-й странице.

С ноября 2003 года, после революционного апдейта, названного англоязычными вебмастерами "Florida", в среде западных специалистов по поисковой оптимизации (SEO) стали муссироваться слухи, что Google перешел на модификацию алгоритма PageRank, носящую название Hilltop (http://www.cs.toronto.edu/~georgem/hilltop/). Этот алгоритм, патент на который Google получил в 2001 году, подразумевает использование не статического, а динамического (т.е. зависящего от запроса) ранга документа и основан на алгоритме HITS, использующемся в поисковой машине Teoma. Однако, Google не делал никаких официальных заявлений по поводу того, что при ранжировании теперь используется алгоритм Hilltop. Кроме того, в Google постоянно идут параллельные научные изыскания по модификации алгоритма PageRank, как правило, в плане учета тематики документа и запроса. Так, например, есть исследования по использованию в алгоритме не скалярного, а векторного показателя PageRank - Topic-Sensitive PageRank (http://dbpubs.stanford.edu:8090/pub/2002-6). Но, судя по всему, до широкой реалиазации подобных модификаций дело еще не дошло.

Тем не менее, вполне вероятно, что в классическую модель вычисления PageRank могли быть внесены какие-либо поправки. Ведь основные недостатки этой модели состоят в том, что, во-первых, она требует больших вычислительных мощностей. Во-вторых, все ссылки считаются равноправными, что в реальности, естественно, не так - одни ссылки заметнее и более привлекательны для пользователя, другие - наоборот, упрятаны в "подвалы" или сливаются с окружающим текстом, вероятность перехода по тематической ссылке, напрямую связанной с контентом документа тоже сильно отличается от перехода по никак тематически не связанной ссылке. Официальной информации о введении каких-либо корректировок в классический алгоритм нет, однако нельзя исключать тот факт, что с одной стороны могли быть введены какие-либо упрощения для уменьшения количества вычислений, а с другой стороны - добавлены какие-либо поправки, учитывающие неоднородность ссылок между различными документами. Поэтому более корректно в общей форме можно считать статическим фактором взвешенное некоторым образом количество ссылок на документ. Отсюда напрашивается простой вывод - чем больше ссылок на документ, тем выше его статический ранг. Чем больший статический ранг имеет ссылающийся документ, тем больший вклад он сделает в статический ранг того, документа на который он ссылается. Как правило, из всех страниц сайта, наибольший статический ранг имеют главные страницы - на них ссылаются все внутренние страницы, кроме того, и внешние ссылки ведут, как правило, на них. Далее идут страницы основного меню, которые также имеют ссылки со всех страниц сайта. Далее величина статического ранга спускается по уровням иерархии сайта. Чем плотнее перелинкованы между собой документы сайта, тем более близки будут их статические ранги. Для примера приведем результаты расчета по классическому алгоритму PageRank (при d=0,85) для многоуровневой иерархической структуры:

http://www.promo-techart.ru/image/analisys/2005-2.gif

Четко прослеживается уменьшение значения PageRank со спуском по иерархической лестнице (уровни A, B-C и D-E-F-G) и стремление к выравниванию показателей PageRank у более плотно перелинкованных документов (связка С-F-G по сравнению со связкой B-D-E).

Хороший наглядный инструмент для расчетов по классическому алгоритму PageRank для небольших групп документов (максимальное количество равно 26) с произвольно задаваемой структурой перелинковки находится по адресу http://www.webworkshop.net/pagerank_calculator.php. Единственный нюанс - для того, чтобы выполнялось условие равенства суммы значений показателей PageRank единице (вероятность того, что пользователь находится на любой странице), надо результаты расчета для каждой страницы разделить на число документов. С помощью этого сервиса можно наглядно разобраться в том, как распределяется вероятность посещения пользователем документа (PageRank) при различных схемах перелинковки документов.

Схожие реализации определения статических факторов используются, судя по всему и в остальных рассматриваемых поисковых машинах. Например, взвешенный индекс цитирования (ВИЦ) в Яндексе (также в некоторых документах разработчики Яндекса употребляют термин "ссылочный ранг"), или Web Rank в Yahoo! Исключение составляет разве что Рамблер. Его разработчики заявляют, что в качестве статического фактора для каждого документа используется так называемый "коэффициент популярности", который, как и алгоритм PageRank, основан на учете гиперссылок между страницами сети, однако реализация Рамблера дополнительно использует данные о реальной посещаемости страниц, полученные от счетчика Top100.

Показатель PageRank Google интересен еще и тем фактом, что его значение, хотя и явно нелинейно нормированное и весьма грубо округленное, можно узнать для конкретного документа с помощью панели инструментов Google ToolBar. Этот показатель весьма часто используется для оценки значимости конкретного документа в процессе обмена с ним ссылками или приобретения ссылок с него многими SEO-специалистами.

Итак, какое же место занимает статический ранг документа среди других факторов ранжирования? Так как этот показатель не зависит от запроса, то он играет вспомогательную роль, используясь как весовой коэффициент при учете факторов, зависящих от запроса. Однако, этим показателем отнюдь не следует пренебрегать, так как он может существенно усилить эффект от динамических факторов.

2. Динамические внутренние факторы
Эти факторы еще называют страничными факторами. Они измеряют собственно релевантность текста страницы, то есть показывают, насколько содержимое самой страницы соответствует определенному запросу. Это наиболее понятные и логичные показатели, значение которых весьма часто сильно преувеличивается начинающими специалистами в области поисковой оптимизации.

Действительно, раньше соответствие содержимого документа запросу было единственным фактором, использующимся в ранжировании, но легкость манипулирования страничными факторами (любой владелец сайта легко может вносить какие угодно изменения в содержимое страниц), заставила всё большее значение придавать внешним факторам, воздействовать на которые гораздо сложнее.

К основным страничным факторам относятся:

Внутридокументная частота поисковой фразы
Элементы форматирования текста
Вхождение слов запроса в служебные теги и атрибуты
Рассмотрим их поподробнее.

Одним из самых распространенных заблуждений считается, что внутридокументная частота - это просто отношение числа вхождений слов из поисковой фразы к общему количеству слов документа. Разработчики поисковых машин давно и с явным удовольствием занимаются совершенствованием алгоритмов ее расчета. Любителей потеоретизировать могу отослать к замечательному документу под авторством Ильи Сегаловича и Михаила Маслова "Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового поиска и ранжирования в Яндекс", расположенным на корпоративном сайте Яндекса по адресу http://company.yandex.ru/articles/romip2004.xml. В этом документе вам встретятся такие понятия как "препроцессинг запроса", "фильтрация по кворуму", "релевантные пассажи", "расчет веса словопозиции", "функция контрастности" и т.п. То есть вычисление внутридокументной частоты - вещь весьма непростая. Надо полагать, что у разработчиков других поисковых машин дела с этим обстоят не хуже.

Практика же показывает, что достаточно хотя бы одного точного вхождения требуемой поисковой фразы в тексте документа для того, что бы больше не останавливаться на этом вопросе. Тем более пытаться искусственно повысить концентрацию ключевой фразы в ущерб естественности текста. Это является большой ошибкой. В угоду весьма сомнительному выигрышу в плане страничной релевантности, мы рискуем получить большой ущерб в плане юзабилити (пользователю может быть просто неприятно читать "искусственный" текст) и повышенную вероятность санкций со стороны модераторов поисковых машин, если подобное творчество попадется им на глаза.

Что же касается элементов форматирования текста, то за вхождение слов запроса в некоторые области текста, выделенные соответствующими тегами (<h1>, ..., <h6>, <strong>, <em>, <b>, <i>) могут начислять некоторые дополнительные "баллы" в плюс к общему значению релевантности текста документа запросу. Здесь опять же крайне рекомендую не злоупотреблять этими тегами в ущерб читабельности документа. Всё должно быть в меру и как можно естественней.

Вхождение слов запроса в служебные теги и атрибуты тоже можно охарактеризовать как некий "бонус" к общей релевантности текста документа запросу. Наибольший эффект дает точное вхождение поисковой фразы в тег title. Причем, поисковыми машинами могут накладываться ограничения на длину учитываемого фрагмента текста по числу символов или слов в том или ином теге или атрибуте. Эти ограничения могут быть определены в результате несложных экспериментов. Учет служебных тегов и атрибутов различными поисковыми машинами можно представить в виде следующей сводной таблицы:

форум Реклама в интернете

Форум eBanners.Ru: Реклама в интернете и раскрутка сайтов - форум по интернет-рекламе

Ранжирование - методы ранжирования документов в поисковых системах - Поисковая оптимизация сайта и продвижение сайтов в поисковых системах - интернет-реклама