Примеры сетевых топологий


Современные поисковые системы - часть 20


Таким образом, список стоп-слов будет динамически изменяющимся. Как уже говорилось, использование списка стоп-слов может приводить к 30% уменьшению размеров индексных файлов. Для построения кластеров обычно используется два основных подхода:
  • кластеризация основывается на вычислении степени соответствия между подвергающимися кластеризации объектами.

  • кластерные методы применяются не к объектам непосредственно, а к их описаниям.

В первом случае кластеры можно представить с помощью графов, построенных с учетом значений функции соответствия для каждой пары документов.

Рассмотрим некоторое множество объектов, которые должны быть кластеризованы. Для каждой пары объектов из данного множества вычисляется значение функции соответствия, показывающее насколько эти объекты сходны.

Если полученное значение оказывается больше величины заранее определенного порогового значения, то объекты считаются связанными. Вычислив значения функции соответствия для каждой пары объектов, строится граф, по сути, представляющий собой кластер. То есть определение кластера строится в терминах графического представления.

Список литературы

1Salton, G., "Automatic Text Analysis", Science, 168, 335-343 (1970)
2Luhn, H. P. "The automatic creation of literature abstracts", IBM Journal of Research and Development, 2, 159-165 (1958)
3Gerard Salton, Chris Buckley and Edward A. Fox, "Automatic Query Formulations in Information Retrieval", Cornell University,
4Tandem Computers Inc. "Three Query Parsers",
5Object Design Inc., "Persistent Storage Engine PSE-Pro documentation",
6Roger Whitney, "CS 660: Combinatorial Algorithms. Splay Tree", San Diego State University.




Начало  Назад  Вперед