Регистрация Вход

01 Фев 2006 Ср 22:53 плотность слов

Какой величины (символов с пробелами) должен быть текст, оптимизованный для поисковых систем?

- - -
Поисковые системы стремятся показать наверху списка ссылки на наиболее соответствующие запросу естественные сетевые документы. Под «документом» в данном случае подразумевается содержимое веб-страницы, а вот что означает слово естественные… Разберем это на примере.

Допустим, в индексе поисковой системы по запросу «новости» найдены всего лишь два текстовых документа. В обоих текстах есть слово «новости».

* * *

Главные неофициальные новости 2005 года
Весь год, параллельно с самыми важными событиями, происходит множество любопытных курьезов, которые упоминаются в новостях в последнюю очередь. Однако без них картина уходящего года была бы, наверное, не полной, и уж во всяком случае не такой красочной. Лента.Ру предлагает список самых странных новостей года, составленный на основе предпочтений наших читателей.

* * *

Главные новости неофициальные новости 2005 новости года
Весь новости год, параллельно новости с самыми важными событиями, происходит новости множество любопытных новости курьезов, которые упоминаются в новостях в последнюю новости очередь. Однако без новости них картина уходящего года была бы, наверное, не полной, и уж во всяком новости случае не такой красочной. Лента.Ру предлагает новости список самых странных новостей года, составленный на основе предпочтений новости наших читателей.

* * *

Даже бегло взглянув на примеры, мы увидим, что первый текст написан хорошо, а вот второй… «какой-то неправильный». Читать его сложно, слово «новости» употребляется в нем не к месту и не в меру. Иными словами, первый текст – естественный, он написан человеком и для человека. Второй – неестественный, люди не смогут его легко читать и понимать.

А теперь вспомним, что нам необходимо решить, ссылку на какой из этих документов поставить выше в результатах поиска по запросу «новости». В первом тексте слово «новости» встречается один раз, во втором - двенадцать. Казалось бы, чем чаще в тексте встречается нужное слово, тем более соответствует текст запросу…
Согласно такой «логике», в нашем примере мы должны первой поставить ссылку на белиберду.

Поисковая система не умеет понимать тексты, как это делаем мы, и выбор из двух, двух сотен, или двух миллионов текстов, в которых найдено слово поискового запроса, осуществляет автоматически. Как автоматически отличить естественные тексты от неестественных? На помощь приходит математика. Ниже – отрывок из статьи Артема Попова «Поиск в Интернете – внутри и снаружи».

2. Автоматический анализ текстов
«…Оказывается, все созданные человеком тексты построены по единым правилам! Никому не удается обойти их. Какой бы язык ни использовался, кто бы ни писал - классик или графоман, - внутренняя структура текста останется неизменной. Она описывается законами Зипфа (G.K. Zipf). Зипф предположил, что природная лень человеческая (впрочем, это свойство любого живого существа) ведет к тому, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Зипф вывел два универсальных закона.

2.1. Первый закон Зипфа "ранг - частота"
Выберем любое слово и посчитаем, сколько раз оно встречается в тексте. Эта величина называется частота вхождения слова. Измерим частоту каждого слова текста. Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Сгруппируем их, взяв только одно значение из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Порядковый номер частоты называется ранг частоты. Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними - 2 и т.д. Ткнем наугад в страницу и определим вероятность встретить слово, на которое пал выбор. Вероятность будет равна отношению частоты вхождения этого слова к общему числу слов в тексте.
Вероятность = Частота вхождения слова / Число слов
Зипф обнаружил интересную закономерность. Оказывается, если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна!
С = (Частота вхождения слова х Ранг частоты) / Число слов

…Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текст мы ни взяли. Так, например, для английских текстов константа Зипфа равна приблизительно 0,1. Интересно, как выглядят с точки зрения законов Зипфа русские тексты? Они не исключение. Анализ хранящихся в моем компьютере файлов с русскими текстами убедил, что закон безупречен и тут. Для русского языка коэффициент Зипфа получился равным 0,06-0,07. Хотя эти исследования не претендуют на полноту, универсальность законов Зипфа позволяет предположить, что полученные данные вполне достоверны.

2.2. Второй закон Зипфа "количество - частота"
Рассматривая первый закон, мы отмахнулись от факта, что разные слова входят в текст с одинаковой частотой. Зипф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой. Если построить график, отложив по одной оси (оси Х) частоту вхождения слова, а по другой (оси Y) - количество слов в данной частоте, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов! Как и в предыдущем случае, это утверждение верно в пределах одного языка. Однако и межъязыковые различия невелики. На каком бы языке текст ни был написан, форма кривой Зипфа останется неизменной. Могут немного отличаться лишь коэффициенты, отвечающие за наклон кривой (в логарифмическом масштабе, за исключением нескольких начальных точек, график - прямая линия).
Законы Зипфа универсальны. В принципе, они применимы не только к текстам. В аналогичную форму выливается, например, зависимость количества городов от числа проживающих в них жителей.

Характеристики популярности узлов в сети Интернет - тоже отвечают законам Зипфа. Не исключено, что в законах отражается "человеческое" происхождение объекта. Так, например, ученые давно бьются над расшифровкой манускриптов Войнича. Никто не знает, на каком языке написаны тексты и тексты ли это вообще. Однако исследование манускриптов на соответствие законам Зипфа доказало: это созданные человеком тексты. Графики для манускриптов Войнича точно повторили графики для текстов на известных языках…» (Артем Попов «Поиск в Интернете - внутри и снаружи»).

Подсчет частот слов для наших примеров дает следующие значения коэффициентов Зипфа

Для естественного текста

Ранг Слово Частота Коэффициент Зипфа
1 года 3 0,053571429
2 в 2 0,071428571
2 не 2 0,071428571
3 2005 1 0,053571429
3 без 1 0,053571429
3 бы 1 0,053571429
3 была 1 0,053571429
3 важными 1 0,053571429
3 Весь 1 0,053571429
3 во 1 0,053571429
3 всяком 1 0,053571429
и т.д.

Для текста с избыточным употреблением слова «новости».

Ранг Слово Частота Коэффициент Зипфа
1 новости 12 0,176470588
2 года 3 0,088235294
3 в 2 0,088235294
3 не 2 0,088235294
4 2005 1 0,058823529
4 без 1 0,058823529
4 бы 1 0,058823529
4 была 1 0,058823529
4 важными 1 0,058823529
4 Весь 1 0,058823529
4 во 1 0,058823529
и т.д.

Как видим, даже на таком малом объеме текста неестественность может быть определена алгоритмически – значение коэффициента Зипфа для слова «новости» почти в три раза выше, чем ожидаемое для естественных текстов.

Алгоритмы ранжирования реальных поисковых машин намного сложнее, но все факторы, которые поисковики используют в качестве значимых параметров для ранжирования, взяты именно из представлений о том, какими должны быть нормальные, естественные, предназначенные для пользователей сетевые документы.
- - -

Т.е. как видим, важно не столько процентное содержание ключевых слов, а общий "баланс" текста. При этом очевидно, что чем больше текст, тем достовернее определяется его "естественность". Может быть, поэтому и существует общепринятое мнение, что "Рамблер любит тексты".
_________________
источники:

Андрей Иванов.
http://seochase.com/viewtopic.php?p=32125

Поиск в Интернете -- внутри и снаружи
Эффективная методика поиска информации в сети Интернет
Артем ПОПОВ
http://www.dist-cons.ru/modules/searchinf/z/a14/inter.net.ru/7/18.html

форум Реклама в интернете

Форум eBanners.Ru: Реклама в интернете и раскрутка сайтов - форум по интернет-рекламе

плотность слов - Поисковая оптимизация сайта и продвижение сайтов в поисковых системах - интернет-реклама