• На какие Web-узлы
имеются ссылки на анализируемой странице и встречается ли ключевое слово в
тексте ссылки?
• Какие Web-узлы
имеют ссылку на анализируемый сайт? Каков текст ссылки? (Это так называемый внестраничный критерий, потому
что автор страницы не всегда может им управлять.)
• На какие
еще страницы данного сайта содержит ссылки анализируемая страница?
Как видите, поисковая система должна провести довольно
детальный анализ каждой страницы, информацию о которой она заносит в свою базу
данных.
Мы привели лишь очень краткое описание того,
как работает поисковая система, но для нашей книги этого более чем достаточно.
В следующем разделе мы поговорим о возможных алгоритмах поиска более подробно.
Алгоритмы
поиска
Как уже говорилось, применяемые поисковиками
алгоритмы являются их ноу-хау. Тем не менее о некоторых закономерностях,
которые используются при разработке алгоритмов и предшествующему их применению
анализу текста, поговорить стоит.
Некоторые из этих закономерностей были подмечены Джорджем
Зипфом (George К. Zipf); он опубликовал свои законы в 1949
году. Пять лет спустя знаменитый математик Беноит Мандлеброт (Benoit
Mandlebrot) внес небольшие изменения в формулы Зипфа, добившись более
точного соответствия теории практике. Хотя некоторые исследователи и подвергают
исследования Зипфа острой критике, без учета подмеченных им закономерностей
сегодня не способна работать ни одна система автоматического поиска
информации.
Зипф заметил, что длинные слова встречаются в тексте реже,
чем короткие (по-видимому, это как-то связано с природной ленью человека и
вообще любого живого существа). На основе этой закономерности Зипф вывел два
закола.
Первый из них связывает частоту появления того или иного
слова в каком-то тексте (она называется частота
вхождения слова) с рангом этой частоты.
Наиболее часто встречающимся словам (точнее, частоте их вхождения)
присваивается ранг, равный единице. Частоте вхождения тех, которые встречаются
чуточку реже, — ранг два и т.д. Зипф обнаружил, что если умножить вероятность
обнаружения слова в тексте на ранг его частоты вхождения, то получившаяся
величина приблизительно постоянна. В математике такая зависимость отображается
гиперболой. Отсюда, в частности, следует, что, если наиболее распространенное
слово встречается в тексте 100 раз, то следующее по распространенности
встретится не 99 и не 90, а примерно 50 раз (статистика не гарантирует точных цифр).
Значение вышеупомянутой постоянной в разных языках различно,
но внутри одной языковой группы она остается неизменной. Так, например, для
английских текстов постоянная Зипфа равна приблизительно 0,1. Дли русского
языка постоянная Зипфа равна примерно 0,06-0,07.
Второй закон Зипфа констатирует, что частота и количество
слов, входящих в текст с этой частотой, связаны между собой. Если построить
график, отложив по одной оси (оси X) частоту вхождения слова, а по другой (оси Y) —
количество слов, входящих в текст сланной частотой, то получившаяся кривая
будет сохранять свои параметры для всех без исключения созданных человеком
текстов.
Зипф считал, что его законы универсальны. Они применимы не
только к текстам. В аналогичную форму выливается, например, зависимость между
количеством городов и числом проживающих в них жителей. Характеристики
популярности узлов 1п-ternei также отвечают законам Зипфа. Не
исключено, что в законах отражается "человеческое" происхождение
объекта.
Как поисковые машины могут использовать законы Зипфа
<< назад
вперед >>
|