Координаты каждого документа в этом
пространстве зависят от содержащихся в нем терминов (от их весовых коэффициентов,
положения внутри документа, от "расстояния" между терминами и т.п.).
В результате оказывается, что документы с похожим набором терминов
располагаются в этом пространстве поблизости. Получив запрос, поисковая
система удаляет лишние слова, выделяет значимые термины, вычисляет вектор
запроса в пространстве документов и выдает ссылки на документы, попавшие в
определенную область пространства.
В
пространственно-векторной модели термины "взаимодействуют" друг с
другом, что повышает релевантность найденных документов запросу пользователя.
Поисковая машина, работающая в соответствии с такой моделью, лучше воспринимает
запросы на естественном языке, чем машина, использующая более привычную
"матричную" модель (в которой просто составляется матрица
"термины-документы"; если в докуме1сте
упоминается какой-то термин, в матрице
проставляется число, учитывающее его весовой коэффициент, не упоминается —
ставится ноль).
Схема работы каждой поисковой системы держится в секрете.
Выше мы в весьма упрощенной форме изложили лишь основы алгоритма работы
поисковой системы. В реальности механизм индексации и структура базы данных ИПС
значительно сложнее. Но и сказанного вполне достаточно для того, чтобы при формулировке
запросов вы старались выбирать слова, наиболее точно характеризующие предмет
поиска. Впрочем, о точности и полноте поиска мы более подробно поговорим в
следующем разделе.
Полнота и
точность поиска
Если бы интеллект поисковой машины был сравним
с человеческим, в результате поиска мы получали бы несколько документов,
содержащих исчерпывающую информацию о предмете поиска. К сожалению, это (пока)
не так, и в результатах запроса обычно фигурируют сотни документов, не имеющих
отношения к тому, что мы на самом деле хотели получить. Называются такие документы
нерелевантными. Более подробно этот термин (точнее, противоположный ему по
значению) обсуждается ниже.
Релевантность
Итак, релевантным (от англ. relevant — подходящий, относящийся к
делу) называется документ, имеющий отношение к сделанному вами запросу, т.е.
содержащий нужную вам информацию.
Следует
отметить, что обсуждение понятия релевантности в контексте
информационно-поисковых систем ведется уже около полувека, но его конкретного
общепринятого определения все еще нет.
По-разному дают определение релевантности и словари. Так,
"Экономический словарь", расположенный на сайте www.km.ru, считает, что релевантность — это
смысловое соответствие между информационным запросом и полученным сообщением.
Поисковый узел Yandex (www.yandex.ru) трактует этот термин как
меру соответствия результатов поиска задаче, поставленной в запросе (что, в
общем-то, эквивалентно определению "Экономического словаря ").
Но иногда этому термину дают несколько расширенное толкование.
Так, в одной из статей на том же поисковике Yandex говорится, что
"при поиске в Internet важны две составляющие— полнота
(ничего не потеряно) и точность (не найдено ничего лишнего). Обычно это все
называют одним словом — релевантность". Другими словами, релевантность —
это опять-таки соответствие ответа вопросу, но с учетом таких понятий, как
полнота и точность поиска.
Коэффициенты
полноты и точности
Коэффициентом полноты поиска (или просто полнотой поиска)
называют