Стартовая

Почему именно Google

0

Почему только Google

1

Google — краткая история, возможности и особенности

2 3 4 5 6

Поиск для нетерпеливых

7 8 9 10 11

Терминология и немного теории

12 13 14 15 16 17 18 19

Первоначальная настройка

20 21 22 23

Поиск для терпеливых

24 25 26 27 28 29 30 31 32 33 34 35 36

Тематический поиск

37 38 39 40 41 42 43 44 45 46 47 48 49 50 51

Программные средства Google

52 53 54 55 56 57 58 59 60 61 62 63 64 65 66

Лаборатории Google

67 68 69 70 71 72 73

Платные услуги

74 75 76 77 78

Популяризация сайта с помощью Google

79 80 81

Заключение

82

• На какие Web-узлы имеются ссылки на анализируемой странице и встречается ли ключевое слово в тексте ссылки?

• Какие Web-узлы имеют ссылку на анализируемый сайт? Каков текст ссылки? (Это так называемый внестраничный критерий, потому что автор страницы не всегда может им управлять.)

• На какие еще страницы данного сайта содержит ссылки анализируемая страница?

Как видите, поисковая система должна провести довольно де­тальный анализ каждой страницы, информацию о которой она заносит в свою базу данных.

Мы привели лишь очень краткое описание того, как работает поисковая система, но для нашей книги этого более чем доста­точно. В следующем разделе мы поговорим о возможных алго­ритмах поиска более подробно.

Алгоритмы поиска

Как уже говорилось, применяемые поисковиками алгоритмы являются их ноу-хау. Тем не менее о некоторых закономерностях, которые используются при разработке алгоритмов и предшест­вующему их применению анализу текста, поговорить стоит.

Некоторые из этих закономерностей были подмечены Джорджем Зипфом (George К. Zipf); он опубликовал свои законы в 1949 году. Пять лет спустя знаменитый математик Беноит Мандлеброт (Benoit Mandlebrot) внес небольшие изменения в формулы Зипфа, добив­шись более точного соответствия теории практике. Хотя некоторые исследователи и подвергают исследования Зипфа острой критике, без учета подмеченных им закономерностей сегодня не способна рабо­тать ни одна система автоматического поиска информации.

Зипф заметил, что длинные слова встречаются в тексте реже, чем короткие (по-видимому, это как-то связано с природной ле­нью человека и вообще любого живого существа). На основе этой закономерности Зипф вывел два закола.

Первый из них связывает частоту появления того или иного слова в каком-то тексте (она называется частота вхождения слова) с рангом этой частоты. Наиболее часто встречающимся сло­вам (точнее, частоте их вхождения) присваивается ранг, равный единице. Частоте вхождения тех, которые встречаются чуточку реже, — ранг два и т.д. Зипф обнаружил, что если умножить веро­ятность обнаружения слова в тексте на ранг его частоты вхожде­ния, то получившаяся величина приблизительно постоянна. В ма­тематике такая зависимость отображается гиперболой. Отсюда, в частности, следует, что, если наиболее распространенное слово встречается в тексте 100 раз, то следующее по распространенно­сти встретится не 99 и не 90, а примерно 50 раз (статистика не га­рантирует точных цифр).

Значение вышеупомянутой постоянной в разных языках раз­лично, но внутри одной языковой группы она остается неизмен­ной. Так, например, для английских текстов постоянная Зипфа равна приблизительно 0,1. Дли русского языка постоянная Зипфа равна примерно 0,06-0,07.

Второй закон Зипфа констатирует, что частота и количество слов, входящих в текст с этой частотой, связаны между собой. Если построить график, отложив по одной оси (оси X) частоту вхождения слова, а по другой (оси Y) — количество слов, входящих в текст сланной частотой, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов.

Зипф считал, что его законы универсальны. Они применимы не только к текстам. В аналогичную форму выливается, напри­мер, зависимость между количеством городов и числом прожи­вающих в них жителей. Характеристики популярности узлов 1п-ternei также отвечают законам Зипфа. Не исключено, что в зако­нах отражается "человеческое" происхождение объекта.

Как поисковые машины могут использовать законы Зипфа


<< назад вперед >>