И лишь принятая позже таблица кодировки КО 18 стала
восьмибитовой и содержала уже полный набор символов латинского и русского алфавитов.
Сейчас все кодировочные таблицы национальных символов имеют
сходную структуру. Они восьмибитовые; "младшая" половина (десятичные
коды с 0 до 127) совпадает со стандартом ASCII, а старшая
регламентирует кодировку национальных символов. Благодаря этому цифры, знаки
препинания и символы латиницы корректно обрабатываются на любом компьютере. Но
этого, к сожалению, нельзя сказать о символах кириллицы, В разных операционных
системах использовались разные таблицы, из-за чего текст, набранный в MS DOS
(была когда-то такая операционная система), не читается в Windows
и наоборот. В табл. 3.1 приведены названия операционных систем и типы
используемых ими кодиро-вочных таблиц.
Операционная
система Копировочная
таблица
MS Windows
95—ХР
Windows-1251
Sun Solaris, Linux, FreeBSD
и другие
KOI8, ISO-8859-5
клоны UNIX
DOS. IBM
OS/2
DOS CP866
MacOS
Macintosh 10007
По мере роста Internet разнообразие
кодировок стало серьезным препятствием (эта проблема касается не только
славянских языков; есть ведь еще и арабская вязь, и иероглифы восточных
народов), Поэтому в 1991 году была принята первая версия стандарта Unicode,
или ISO/IEC 10646. Он стал результатом сотрудничества
Международной организации по стандартизации (ISO) и ведущих производителей
компьютеров и программного обеспечения. В этом стандарте используется 16 бит,
что позволяет закодировать до 65 536 символов. Но он несовместим с
большинством Internet-протоколов. Это вызвано тем, что часть битов двухбайтово
го пространства в протоколах Internet используется в качестве
служебных, что не совпадает с их назначением в Unicode. Для совместимости с
Internet-протоколами
были разработаны специальные форматы преобразования Unicode
(Unicode Transformation Format — UTF);
самым распространенным нз них стал формат UTF-8. Этот формат
регламентирует правила преобразования кода символа Unicode
в набор байтов (числом от 1 до 3), которые можно передавать с помощью
протоколов Internet. Именно из-за некорректного преобразования в формат UTF-8
и обратно иногда в сообщениях электронной почты встречаются одни лишь вопросительные
знаки.
Существует еще формат UTF-I6,
позволяющий кодироввть символы "мертвых" языков, не попавших в
первоначальную таблицу кодировки. Однако для "живых" языков эти форматы
используют одни и те же коды.
Понятно,
что поисковая машина должна уметь распознавать кодировку, используемую на
сайте, который она индексирует, и тем более кодировку запроса, сделанного
пользователем. Далеко не все зарубежные поисковые системы умеют это делать, так
что с ними лучше общаться на английском языке. Русскоязычные поисковики,
напротив, хорошо справляются с этой задачей. Однако, открыв найденную
поисковиком страницу, вы можете обнаружить на ней хоть и не состоящий из одних
вопросительных знаков, но все же "нечитабельный" текст. Чтобы
преобразовать его, нужно в меню Вид программы Internet Explorer выбрать
пункт Кодировка, а затем щелкнуть на названии альтернативной кодировки в
контекстном меню. Если по умолчанию использовалась колировка, названная в меню
Кириллица (Windows) (на самом деле— Windows-1251), то нужно
выбрать кодировку Кириллица (KOI8-R), и наоборот. На
подавляющем большинстве сайтов используется одна из названных кодировок (на
украиноязычных может быть еше кодировка K018-U).
Если текст все равно не читается, следует перевести указатель мыши на пункт
меню Дополнительно и проверить варианты с кириллицей DOS
и ISO. В особо "тяжелых" случаях, когда кажется, что
именно на данном сайте находится самая нужная вам информация, а страница не Ч1ггается, можно прибегнуть
к услугам программы-перекодиров-шика. Среди бесплатных программ такого рода
отметим TCode (http://alexboiko.narod.ru/index_r.html).
Резюме
Поисковая машина (поисковик) представляет собой комплект
программ, в основе которого лежат поисковый робот, индексатор, база данных и
система выдачи результатов поиска. Поисковый робот в периоды наименьшей
загрузки обходит сайты и загружает найденные Web-страницы в поисковую
машину. Здесь они индексируются (т.е. поисковик проводит их предварительный
анализ) и заносятся в базу данных. После поступления запроса от пользователя
система выдачи результатов поиска отыскивает в базе данных документы и Web-страницы,
в наибольшей степени отвечающие запросу пользователя, и результаты поиска
пересылаются на его компьютер.
Почти
каждая ИПС использует свой алгоритм поиска. При этом учитываются статистические
закономерности. Так, наиболее часто встречающиеся слова (их называют
стоп-слова), не несущие смысловой нагрузки (предлоги, частицы, артикли и т.п.),
при поиске игнорируются, даже если они были введены пользователем в числе
ключевых слов. Могут не учитываться также редко встречающиеся слова, но это не
относится к именам, фамилиям, латам и другим элементам документов, несущим
большую смысловую нагрузку. Кроме того, учитывается количество ссылок,
сделанных на данную Web-страницу с других страниц. Чем оно
больше, тем ценнее данная страница для пользователя.
Качество поиска характеризуют такими параметрами, как
полнота и точность поиска. Чем полнее поиск, тем меньше релевантных документов
остается не включенными в результаты поиска, предоставляемые пользователю.
Точность поиска тем выше, чем меньше в результатах поиска нерелевантных (не
имеющих отношения к сделанному пользователю запросу) документов.
С помощью логических (булевых) операторов можно очень точно
указать поисковой машине, что именно интересует пользователя. Поиск такого
рода, в отличие от простого, называют сложным. Поскольку не все пользователи
умеют применять логические операторы, многие ИПС предлагают им проводить расширенный
поиск, при котором пользователь заполняет предлагаемую форму, а ИПС на ее
основе сама формирует запрос для проведения булева поиска.
Символы кириллицы могут кодироваться
по-разному. В настоящее время наибольшее распространение получили кодировки KOI8-R и Windows-1251,
однако иногда используются кодировки ISO-8859-5, UTF-8
и др. Обычно браузер определяет кодировку Web-страницы автоматически, в
противном случае ее можно подобрать вручную. Поисковая машина также должна
уметь определять кодировку, использованную на странице, которую она индексирует,
иначе она потом не сможет найти в своей базе данных документы, релевантные запросу
пользователя, даже если они там будут. Все русскоязычные ИПС и Google
хорошо решают проблему кодировок, о других зарубежных ИПС этого сказать
нельзя. Поэтому при их использовании для поиска русскоязычных документов
пользователь может увидеть в описаниях найденных страниц множество
вопросительных знаков.