Примеры сетевых топологий


Современные поисковые системы - часть 12


Принимается, что значения xi вектора x являются статистически независимыми. Данное утверждение математически представляется в виде:
.

Определим переменные:

и
, представляющие собой вероятность того, что в документе присутствует i-ый индексный термин при условии, что документ является релевантным (нерелевантным). Соответствующая вероятность для отсутствия индексных терминов имеет вид
.

Вероятностные функции, используемые для подстановки в правило [1] имеют вид:

и

.

Подставляя значения

в [2] и логарифмируя, получаем:

, где

и
.

Функция G(x) представляет собой ничто иное, как весовую функцию, в которой коэффициенты Сi представляют собой веса присутствующих в документе индексных терминов. Константа С одинакова для всех документов x, но, конечно, различна для разных запросов и может рассматриваться в качестве порогового значения для поисковой функции. Единственными параметрами, которые могут меняться для данного запроса являются параметры стоимостной функции, вариации которых позволяют получать в ответе большее или меньшее число документов.

Теперь рассмотрим коэффициенты Сi функции G(x) с использованием следующей терминологии:

Таблица 4.5.14.1.

 Релевантные документыНерелевантные документыОбщее количество документов
Всего

N - полное число документов в системе.
R - число релевантных документов
r - число релевантных документов, выданных в ответ на запрос
n - полное число документов, выданных в ответ на запрос

Таблица представляет результаты запроса, направленного системе поиска. Представленная таблица должна существовать для каждого из индексных терминов.

Если мы обладаем всей информацией о релевантных и нерелевантных документах в коллекции документов, то применимы следующие оценки:

и
. Тогда функция g(x) может быть переписана в виде
.

Коэффициент при xi показывает, до какой степени можно провести дискриминацию по i-тому термину в рассматриваемой коллекции документов. В действительности, N может рассматриваться не только как полное количество документов во всей коллекции, но и в некотором ее подмножестве.




Начало  Назад  Вперед