Форум eBanners.Ru: Реклама в интернете и раскрутка сайтов - форум по интернет-рекламе
Алгоритм поиска Яндекса по блогам - формула ранжирования записей в топе блогов Яндекса - Поисковая оптимизация сайта и продвижение сайтов в поисковых системах - интернет-реклама
У вас есть вопрос по рекламе в интернете и раскрутке сайтов? Задайте его здесь и вам ответят. Вы уже всё знаете? Помогите тем, кто знает пока не всё. Правила форума|
Сделать стартовой|Добавить в избранное.
Миллион запиcей и комментариев из блогов и форумов каждый день
индексируется 7000000 источников
индексируется 14000000 профилей пользователей. Примерно половина пользователей создает блог и не делает там ни одной записи, а, например, использует для комментирования или забрасывает. Отсюда разница.
всего около миллиарда документов
блоги - это пятая Рунета (по количеству элементов для индексации)
Новые записи индексируются в течении 10 минут на более чем 120 хостингах блогов
Яндекс.Блоги состоят из следующих сервисов (в порядке значимости): поиск, темы дня и популярные записи ("топ поиска по блогам", "ТППБЯ"), рейтинги и пульс блогосферы.
"Популярные записи", или Топ Блогосферы
Антон Волнухин, ответственный за поиск по блогам в Яндексе, рассказал, что "коммерческой ценности" пребывание в популярных записях не несёт - самый большой возможный трафик оттуда исчисляется единицами тысяч посетителей. Накручивают топ обычно те, кто хочет манипулировать мнениями. Именно из-за таких накрутчиков появляются обвинения Яндекса в том, что он редактирует топ вручную - тогда как на самом деле, по словам Антона, формируется он полностью автоматически.
"формула ранжирования" записей в Топе Блогосферы:
Записи сортируются по количеству ссылок на пост за последние три дня.
Ссылки учитываются только с блогов, существующих более полугода
ссылки за последние 8 часов имеют удвоенный вес - это нужно, чтобы топ чаще "освежался"
Записи теряют вес каждый час нахождения в топе - с той же целью
В топ может попасть одновременно не более 1 записи из 1 блога.
Рейтинг пересчитывается каждые 20 минут
Чем меньше раз тот или иной блог ссылался на блог, содержащий топовую запись, тем весомее ссылка.
Перед Яндексом, конечно, стоит задача борьбы с накруткой топа. Планируется добавлять больше источников данных для рейтингования - учитывать комментарии и посещаемость. В ближайшее время пользователи смогут посмотреть разные неотфильтрованные срезы по каждому из источников - и накрутки станут видны каждому. Наконец, планируется сделать больше разных рейтингов, отчего уменьшится потенциал влияния на умы каждого из них.
Как работает поиск по блогам
Индексная база ППБ пополняется, во-первых, записями на уже известных поиску блог-хостингах, во-вторых тем, что пришло через форму добавления blogs.yandex.ru/add.xml, и, наконец, источниками из веб-поиска, который обнаруживает в интернете ссылку на новый RSS. Однако, блогом не считается всё то, что отдает RSS. По умолчаню RSS-поток вообще не считается блогом, есть ряд автоматических правил отнесения его к блогам. Ошибки автоматов правят руками контент-менеджеры.
В результате автономный блог на нестандартном, не известным роботам движке, может не попасть в индекс поиска по блогам. Владельцу такого дневника надо писать в блоговый саппорт и просить себя проиндексировать.
Антон Волнухин признал, что управлять индексированием и участием в поиске своего блога его владелец может только при помощи писем в саппорт. Это неудобно, поэтому Яндекс собирается сделать панель управления взаимоотношениями блога и Яндекса, дав каждому блоггеру полный контроль над его присутствием в сервисах для блогосферы. Пока этого нет, многие вопросы решаются не очень удобно для блоггеров потому, что Яндекс хочет сохранить своеобразный дипломатический нейтралитет.
Например, если запись попала в ТППБЯ, а потом исчезла из блога, ссылка из топа начнёт автоматически вести на сохраненную копию записи. Яндекс ведь не знает, почему именно исчезла запись, захотел ли её стереть блоггер или ХакерХелл, или Abuse Team из ЖЖ.
Основные отличия поиска по блогам от поиска по Вебу:
очень быстрая индексация записей. По личному опыту редакции этого блога, в ЖЖ записи индексируются буквально за пять минут.
в результатах поиска ранжирвание по времени
поиск обрабатывает большое количество маленьких текстов
есть возможность учитывать информацию об авторе (соцдем) и его связях внутри социального сервиса. Это позволяет в расширенном поиске задать пол, возраст, место жительства и искать, например, информацию по блогам двадцатилетних москвичек.
данные не переиндексируются каждый раз, а накапливаются в индексе
RSS не содержит информации об удалении записи, поэтому удаленный пост остается в блоговом индексе, пока автор не напишет в поддержку.
Главные проблемы поиска по блогам - это спам, фильтрация дублей, индексирование удаленных и скрытых записей.
33% записей в блогах являются спамом. Обычно такие записи представляют собой автоматически сгенерированные тексты (записи и комментарии) с нужными ключевыми словами или ссылками, предназначенные для влияния на веб-поиск и рейтинги. Для борьбы со спамом применяются как специальные блоговые технологии, так и Спамооборона. Яндекс считает, что ему удается удерживать уровень спама в поиске и его влияние на рейтинги невысоким.
Проблема дублей состоит в том, что среди одинаковых записей показывается самая поздняя. Из этого вытекает, во-первых, то, что, скопировав запись, можно попасть в поиск вместо её автора, а во-вторых то, что из нескольких трансляций журнала запись показывается в той, в которую позже всего попала. Решение, опять же, одно - писать в саппорт, жаловаться на злостное копирование записей или указывать ту трансляцию, которую хочется видеть в поиске. Аналогично, в порядке переписки с саппортом, убирается из поиска удаленная или скрытая в режим "для друзей" запись.