Стартовая

Почему именно Google

0

Почему только Google

1

Google — краткая история, возможности и особенности

2 3 4 5 6

Поиск для нетерпеливых

7 8 9 10 11

Терминология и немного теории

12 13 14 15 16 17 18 19

Первоначальная настройка

20 21 22 23

Поиск для терпеливых

24 25 26 27 28 29 30 31 32 33 34 35 36

Тематический поиск

37 38 39 40 41 42 43 44 45 46 47 48 49 50 51

Программные средства Google

52 53 54 55 56 57 58 59 60 61 62 63 64 65 66

Лаборатории Google

67 68 69 70 71 72 73

Платные услуги

74 75 76 77 78

Популяризация сайта с помощью Google

79 80 81

Заключение

82

И лишь принятая позже таблица кодировки КО 18 стала восьмибитовой и содержала уже полный набор символов латинского и русского алфавитов.

Сейчас все кодировочные таблицы национальных символов имеют сходную структуру. Они восьмибитовые; "младшая" поло­вина (десятичные коды с 0 до 127) совпадает со стандартом ASCII, а старшая регламентирует кодировку национальных символов. Благодаря этому цифры, знаки препинания и символы латиницы корректно обрабатываются на любом компьютере. Но этого, к со­жалению, нельзя сказать о символах кириллицы, В разных опера­ционных системах использовались разные таблицы, из-за чего текст, набранный в MS DOS (была когда-то такая операционная система), не читается в Windows и наоборот. В табл. 3.1 приведены названия операционных систем и типы используемых ими кодиро-вочных таблиц.

Операционная система Копировочная таблица

MS Windows 95—ХР Windows-1251

Sun Solaris, Linux, FreeBSD

и другие KOI8, ISO-8859-5 клоны UNIX

DOS. IBM OS/2 DOS CP866

MacOS Macintosh 10007

По мере роста Internet разнообразие кодировок стало серьез­ным препятствием (эта проблема касается не только славянских языков; есть ведь еще и арабская вязь, и иероглифы восточных народов), Поэтому в 1991 году была принята первая версия стан­дарта Unicode, или ISO/IEC 10646. Он стал результатом сотруд­ничества Международной организации по стандартизации (ISO) и ведущих производителей компьютеров и программного обеспе­чения. В этом стандарте используется 16 бит, что позволяет зако­дировать до 65 536 символов. Но он несовместим с большинством Internet-протоколов. Это вызвано тем, что часть битов двухбайто­во го пространства в протоколах Internet используется в качестве служебных, что не совпадает с их назначением в Unicode. Для со­вместимости с Internet-протоколами были разработаны специ­альные форматы преобразования Unicode (Unicode Transforma­tion Format — UTF); самым распространенным нз них стал фор­мат UTF-8. Этот формат регламентирует правила преобразования кода символа Unicode в набор байтов (числом от 1 до 3), которые можно передавать с помощью протоколов Internet. Именно из-за некорректного преобразования в формат UTF-8 и обратно иногда в сообщениях электронной почты встречаются одни лишь вопро­сительные знаки.

Существует еще формат UTF-I6, позволяющий кодироввть символы "мертвых" языков, не попавших в первоначальную таб­лицу кодировки. Однако для "живых" языков эти форматы ис­пользуют одни и те же коды.

Понятно, что поисковая машина должна уметь распознавать кодировку, используемую на сайте, который она индексирует, и тем более кодировку запроса, сделанного пользователем. Далеко не все зарубежные поисковые системы умеют это делать, так что с ними лучше общаться на английском языке. Русскоязычные по­исковики, напротив, хорошо справляются с этой задачей. Однако, открыв найденную поисковиком страницу, вы можете обнару­жить на ней хоть и не состоящий из одних вопросительных зна­ков, но все же "нечитабельный" текст. Чтобы преобразовать его, нужно в меню Вид программы Internet Explorer выбрать пункт Кодировка, а затем щелкнуть на названии альтернативной коди­ровки в контекстном меню. Если по умолчанию использовалась колировка, названная в меню Кириллица (Windows) (на самом деле— Windows-1251), то нужно выбрать кодировку Кириллица (KOI8-R), и наоборот. На подавляющем большинстве сайтов ис­пользуется одна из названных кодировок (на украиноязычных может быть еше кодировка K018-U). Если текст все равно не чи­тается, следует перевести указатель мыши на пункт меню Дополнительно и проверить варианты с кириллицей DOS и ISO. В особо "тяжелых" случаях, когда кажется, что именно на данном сайте находится самая нужная вам информация, а страница не Ч1ггается, можно прибегнуть к услугам программы-перекодиров-шика. Среди бесплатных программ такого рода отметим TCode (http://alexboiko.narod.ru/index_r.html).

Резюме

Поисковая машина (поисковик) представляет собой комплект программ, в основе которого лежат поисковый робот, индексатор, база данных и система выдачи результатов поиска. Поисковый робот в периоды наименьшей загрузки обходит сайты и загружает найденные Web-страницы в поисковую машину. Здесь они ин­дексируются (т.е. поисковик проводит их предварительный ана­лиз) и заносятся в базу данных. После поступления запроса от пользователя система выдачи результатов поиска отыскивает в ба­зе данных документы и Web-страницы, в наибольшей степени от­вечающие запросу пользователя, и результаты поиска пересыла­ются на его компьютер.

Почти каждая ИПС использует свой алгоритм поиска. При этом учитываются статистические закономерности. Так, наиболее часто встречающиеся слова (их называют стоп-слова), не несущие смысловой нагрузки (предлоги, частицы, артикли и т.п.), при по­иске игнорируются, даже если они были введены пользователем в числе ключевых слов. Могут не учитываться также редко встре­чающиеся слова, но это не относится к именам, фамилиям, латам и другим элементам документов, несущим большую смысловую нагрузку. Кроме того, учитывается количество ссылок, сделанных на данную Web-страницу с других страниц. Чем оно больше, тем ценнее данная страница для пользователя.

Качество поиска характеризуют такими параметрами, как полнота и точность поиска. Чем полнее поиск, тем меньше реле­вантных документов остается не включенными в результаты по­иска, предоставляемые пользователю. Точность поиска тем выше, чем меньше в результатах поиска нерелевантных (не имеющих отношения к сделанному пользователю запросу) документов.

С помощью логических (булевых) операторов можно очень точно указать поисковой машине, что именно интересует пользо­вателя. Поиск такого рода, в отличие от простого, называют сложным. Поскольку не все пользователи умеют применять логи­ческие операторы, многие ИПС предлагают им проводить расши­ренный поиск, при котором пользователь заполняет предлагае­мую форму, а ИПС на ее основе сама формирует запрос для про­ведения булева поиска.

Символы кириллицы могут кодироваться по-разному. В на­стоящее время наибольшее распространение получили кодировки KOI8-R и Windows-1251, однако иногда используются кодировки ISO-8859-5, UTF-8 и др. Обычно браузер определяет кодировку Web-страницы автоматически, в противном случае ее можно по­добрать вручную. Поисковая машина также должна уметь опреде­лять кодировку, использованную на странице, которую она ин­дексирует, иначе она потом не сможет найти в своей базе данных документы, релевантные запросу пользователя, даже если они там будут. Все русскоязычные ИПС и Google хорошо решают пробле­му кодировок, о других зарубежных ИПС этого сказать нельзя. Поэтому при их использовании для поиска русскоязычных доку­ментов пользователь может увидеть в описаниях найденных стра­ниц множество вопросительных знаков.


<< назад вперед >>