Регистрация Вход

Зарегистрирован: 16.11.2004

Научный проект "Интеллектуальная поисковая система Nigma.ru"
МГУ им.М.В.Ломоносова, факультеты ВМиК и психологии

http://www.nigma.ru/

насколько я понимаю - поисковик использует базу других поисковых машин? там есть пункты:
искать в Google искать в Yahoo искать в MSN искать в Yandex искать в Rambler

о поисковой системе авторы пишут:

Многие современные поисковые системы основаны на хорошо известных методах и алгоритмах [1,2], разработанных еще до появления Интернет. Общая задача информационного поиска в Интернет не изменилась -- необходимо найти релевантные запросу документы, т.е. документы, соответствующие информационной потребности пользователя. Однако природа Интернет влечет изменение постановки задачи поиска и обуславливает необходимость разработки новых методов обработки полученных данных с целью сужения области поиска. Одним из методов, позволяющих пользователю найти нужную информацию в Интернете является кластеризация полученных документов. Системы, обеспечивающие кластеризацию полученных документов реализованы для английского языка [3,4].

Алгоритм
На основе введенного пользовательского запроса сформировать список документов, разделенных на несколько классов с аннотацией каждого класса и самого документа. Нами рассматриваются несколько методов формирования кластеров из документов, как online, когда кластеры формируются динамически на основе полученных документов, так и offline - этот подход предполагает предварительное обучение системы. Для улучшения качества кластеризации документов предполагается использовать различные web сервисы: корпус русского языка - набор обучающих текстов [5], системы лескико-семантического анализа текста [6].

Литература
Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. ACM Press, 1999
Salton G., McGill M. J. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.
http://vivisimo.com - поисковая системы с иерархической кластеризацией
http://mooter.com - поисковая системы с графическим представлением полученных кластеров
http://www.phil.pu.ru - тезаурусы русского языка
http://ruscorpora.ru - корпус русского языка

Кластеризация
Методы кластеризации
Алгоритм кластеризации на основе суффиксных деревьев

Методы кластеризации
Кластеризацию полученных от внешней поисковой поисковой системы (BackEnd) документов является первым этапом создания системы, формирующей уточняющие вопросы. Под кластеризацией web документов понимается их динамическое разбиение на несколько тематических классов с аннотацией для каждого класса.
Нами рассматривались несколько методов кластеризации:
Single Link , Complete Link, Group Average - эти методы разбивают множество документов на кластеры, расположенные в древовидной структуре - dendrogramm, получаемой с помощью иерархической кластеризацией.

K-means . Относится к не-иерархическим алгоритмам. Кластеры представлены в виде центроидов, являющихся "центром массы" всех документов, входящих в кластер.

STC - Suffix Tree Clustering . Кластеры образуются в узлах специального вида дерева - суффиксного дерева, которое строится из слов и фраз входных документов
На основе проведенного исследования было принято решение использовать в качестве метода кластеризации модифицированный алгоритм на основе суффиксных деревьев.

Достоинства метода:

высокая скорость работы. По времени и занимаемой памяти дерево строится пропорционально количеству документов. Наихудшая теоретическая верхняя граница времени построения - пропорционально квадрату количества документов;
хорошая наглядность представления результатов.
Недостатки метода:
важен порядок слов в документе для определения названий кластеров, состоящих из нескольких слов

Общая схема формирования тематических групп документов с использованием алгоритма STC:
Очистка
Полученные от поискового сервера документы подвегаются предварительно обработке - отчистка от пунктуации, приведение слов в начальную форму
Определение базовых кластеров
Затем для набора документов строится дерево, но единицей, находящейся на рёбрах дерева является слово или словосочетание
Группировка базовых кластеров
Пусть Bm и Bn - базовые кластеры, |Bm|, |Bn| - их размеры. |Bn Bm|- количество общих документов для этих кластеров. Если: |Bn Bm|/ |Bm| > 0.5 и |Bn Bm| / |Bn| > 0.5, то базовые кластеры объединяются в один общий, иначе не объединяются

Очистка документа
Удаление стоп-слов Удаление слов, не имеющих смыслового значения слов (частицы, междометия и т. д.)
Морфологический разбор Приведение слова к нормальной форме (перевод в единственное число, удаление суффиксов)
Синтаксический разбор Выделение связанных компонент (существительное + прилагательное)

Определение базовых кластеров
Строится суффиксное дерево для очищенных документов

http://www.nigma.ru/img/tree.gif

Рис 1. Пример суффиксного дерева для строк

«кошка ест сыр»
«мышь тоже ест сыр»
«кошка тоже ест мышь»

Определяются базовые кластеры
На основе построенного дерева формируются базовые кластеры:

кошка
сыр
мышь
тоже ест

Группировка базовых кластеров
Если базовые кластеры пересекаются более чем по половине своих слов, то происходит их объединение.

форум Реклама в интернете

Форум eBanners.Ru: Реклама в интернете и раскрутка сайтов - форум по интернет-рекламе

Интеллектуальная поисковая система Nigma.ru - Поисковая оптимизация сайта и продвижение сайтов в поисковых системах - интернет-реклама