Говорим по-русски. О кодировках кириллицы

В настоящее время существует пять основных кодировок кириллицы, то есть наборов символов, с помощью которых можно отобразить на web-странице знаки русского алфавита. Они носят названия ISO, KOI8-R, DOS, Windows 1251 и MAC. Имеется также ряд менее распространенных кодировок, так или иначе способных воспроизводить символы кириллицы, они называются Unicode(UTF-8) и транслит.

ПРИМЕЧАНИЕ Кодировкой кириллицы называется общепринятый стандарт, включающий набор символов, который позволяет отображать в документах HTML знаки русского алфавита. [an error occurred while processing this directive]

Исторически первой возникла кодировка KOI8 (код обмена информации восьмибитный), соответствующая стандарту ГОСТ 19768-74. Она была разработана в середине семидесятых годов специалистами одного из советских НИИ и к се- редине восьмидесятых стала базовой кодировкой для только что появившихся тогда в нашей стране русифицированных UNIX-совместимых операционных систем. Именно благодаря этому на сегодняшний день KOIS является основным стандартом для серверов, работающих на базе платформы UNIX (например, для http-сервера Apache), а также используется в качестве «формата по умолчанию» при пересылке сообщений электронной почты на русском языке.

Компания Microsoft, создавая программное обеспечение для работы в Интернете, как водится, пошла своим путем, предложив стандарт Microsoft code page1251 (Windows 1251), получивший чрезвычайно широкое распространение благодаря популярности операционной системы Microsoft Windows и http-сервера Internet Information Server, входящего в комплект поставки Windows NT. Именно поэтому и Windows 1251, и KOI8-R входят в тот минимально допустимый набор кодировок, которые должна обязательно поддерживать любая web-страница.

Стандарт Microsoft/IBM code page 866 (альтернативная кодировка DOS) служит базовой кодировкой в операционных системах MS-DOS и OS/2, и потому в настоящее время она медленно, но верно утрачивает свои позиции, поскольку даже сам разработчик и производитель DOS, компания Microsoft, отказалась от дальнейшей поддержки этой линии операционных платформ. Тем не менее кодировка жива и по сей день, прежде всего, благодаря тому, что часть пользователей не намерена пока расставаться с броузерами, работающими в среде MS-DOS, а также по той причине, что данный стандарт принят по умолчанию в некоммерческой сети FidoNet.

Кодировка ISO-8859-5 была разработана Комитетом по международным стандартам (International Standards Organization, ISO) и применяется в основном вUNIX - совместимых операционных системах. Поскольку данный набор символов был создан западными специалистами, плохо знакомыми не только с самим русским языком, но и с уже имеющимся многообразием кодировок кириллицы, ISO не получила широкого распространения, однако все же достаточно часто встречается в Интернете и активно поддерживается рядом русскоязычных серверов.

Macintosh CP (MAC) предназначена для использования на компьютерах AppleMacintosh, оснащенных операционной системой MacOS. Из-за высокой стоимости Apple-совместимые компьютеры не получили в нашей стране широкого распространения, однако они иногда эксплуатируются на крупных отечественных предприятиях.

Универсальный международный стандарт Unicode (UTF-8) был создан с благородной целью объединить все существующие на сегодняшний день национальные кодировки в одну. Поскольку для отображения одного символа в Unicode отводится не один байт, как это принято во всех остальных стандартах, а два, данная кодировка включает в себя 65 536 знаков вместо 256. В это число входят не только буквы всех алфавитов мира как существующих ныне или созданных искусственно, так и уже практически вымерших, но и множество специальных символов — математических, музыкальных, физических. Однако пре- одолеть инертность большинства владельцев интернетовских ресурсов не так-то просто: поддержка Unicode требует замены части программного обеспечения, да и далеко не все клиентские программы умеют распознавать этот стандарт. Именно поэтому сегодня Unicode практически не используется в Интернете —по всей видимости, это кодировка будущего.

Для операционных систем, вообще не поддерживающих кириллицу, существует транслит. Собственно, данный «вариант русского языка» даже трудно назвать кодировкой, поскольку транслит подразумевает всего-навсего запись русских слов символами латинского алфавита. Такой подход связан с определенными трудностями, так как стандартный латинский шрифт не содержит большинства необходимых для полноценного отображения русского текста символов, напри- мер, таких как мягкий и твердый знаки, а также буквы «и», «ш», «щ», «ы»,«ю», «я» и некоторые другие. Поэтому и был разработан набор правил, позволяющих избегать подобных трудностей. Существует также специальное программное обеспечение, облегчающее перевод русского текста на транслит.

Большинство современных серверных программ обладают встроенной функцией автоматического определения кодировки, используемой клиентским программным обеспечением, и перевода текста в необходимый стандарт «на лету». Однако бывают ситуации, когда возможность автоматического распознавания необходимого пользователю набора символов на сервере отключена или попросту отсутствует. Как раз на этот случай существует стандарт, согласно которому для вывода каждой из кодировок русского языка назначается один из портов сервера. Адрес порта записывается через двоеточие после обозначения домена первого уровня в формате http://www.домен.ги:адрес_порта/название документа. Ниже перечислены стандартные адреса портов для большинства используемых в Интернете серверных программ:

8080 - Microsoft code page 1251 (Windows 1251);

8081 - Microsoft/IBM code page 866 (DOS);

8082 - Macintosh CP (MAC);

8083 - KOI8-R;

8084 — транслит.

Когда web-мастеру по каким-либо причинам необходимо перевести текст из одной кодировки в другую (а такие ситуации возникают довольно часто), обычно применяют одну из многочисленных программ-перекодировщиков, которые можно без труда найти на сайтах, предлагающих бесплатное программное обеспечение.


Урок 3 Введение в web-дизайн

Лекции, конспекты, курсовые, примеры решения задач