Базовый курс Windows и Интернет. Методическое пособие

         

Как работает Яndex


При поиске для каждого найденного документа Яндекс вычисляет величину релевантности (соответствия) содержания этого документа поисковому запросу. Список найденных документов перед выдачей пользователю сортируется по этой величине в порядке убывания.

Релевантность документа зависит от следующих факторов:

- Частотные характеристики искомых слов;

- Вес слова или выражения, заданный пользователем;

- Факт расположения искомых слов в заголовке документа;

- Операторы, применяемые в запросе, их области действия;

- Близость искомых слов в тексте документа друг к другу.

Система просматривает все указанные ей тексты, преобразует каждое русское слово в нормальную форму (для существительных это - именительный падеж единственного числа, для глаголов - неопределенная форма и т.д.) и запоминает подробный адрес каждого слова. Алгоритмы морфологического разбора, которыми мы занимаемся, позволяют проанализировать слово, определить его характеристики и найти все формы, например: идти - идешь - шел; ребенок - дети; окно - окон; отзывать - отозвали.

Поскольку Яndex обеспечивает индексацию одновременно с морфологическим разбором, то это позволяет создавать компактный индекс - около 30% исходных текстов, сохраняя достаточно высокую скорость индексации - 1-2 Мб/мин. Такая технология дает возможность почти полного снятия омонимии на этапе индексации.

Морфология базируется на словаре из 90 тыс. слов, к которому добавлены алгоритмы словообразования, а также механизм построения гипотез для слов, отсутствующих в словаре. Создан и пополняется словарь имен собственных.



Содержание раздела