Базовый курс Windows и Интернет. Методическое пособие

         

Поиск документов на русском языке


Создание достаточно полных русскоязычных Web-каталогов, которые можно было бы сравнивать с Yahoo!, происходит быстрыми темпами. Поисковые системы Yahoo и Rambler на сегодня представляет уже не просто индекс, а гибридные системы с большим классификатором по тематическим разделам. Яndex позволил производить поиск в русской cети с полным учетом морфологии русского языка. Эта поисковая система быстро совершенствуется: появилась возможность формулировать поисковые запросы на естественном языке, ранжировать результаты поиска, искать "похожие документы" и т.д.

Среди поисковых систем, работающих с русскоязычными документами, можно выделить как международные Web-индексы, так и системы, разработанные и внедренные российскими компаниями. Начнем с международных поисковых систем: здесь выбор невелик — это знаменитая AltaVista (http://www.altavista.net). Несмотря на способность целого ряда зарубежных Web-индексов заносить в базу данных русскоязычные слова, лишь AltaVista делает это на уровне, достойном быть примером для остальных.

Российский Интернет многогранен и противоречив. Одна из главных его проблем — это наличие нескольких национальных сетевых кодировок. Для обычного англоязычного Web-сервера эта проблема решается просто. К русскоязычной поисковой машине предъявляются более жесткие требования. Дело в том, что далеко не все серверы поддерживают все или по крайней мере основные кодировки. Часть из них поддерживает или только KOI-8, или только Windows 1251, и только примерно треть поддерживает все или 2-3 основные кодировки. Если вы вводите запрос в окне на поисковом сервере в определенной кодовой странице, то не сможете найти ту информацию, которая существует в другой кодировке на серверах, поддерживающих какую-либо одну кодировку, если ваши кодовые страницы не совпадают. Для получения полной информации вам придется воспользоваться всеми кодировками, поддерживаемыми поисковыми серверами.

Хотя сегодня существует около десятка русскоязычных поисковых систем, мы рассмотрим только те системы, которые стандартно вызываются на панели поиска Internet Explorer 4 – Rambler, Яndex, Апорт!



Содержание раздела