Знаймо

Додати знання

приховати рекламу

Цей текст може містити помилки.

Набір символів



План:


Введення

Набір символів ( англ. character set ) - Таблиця, що задає кодування кінцевого безлічі символів алфавіту (зазвичай елементів тексту: літер, цифр, розділових знаків). Така таблиця зіставляє кожному символу послідовність довжиною в один або декілька символів іншого алфавіту (крапок і тире в коді Mорзе, сигнальних прапорів на флоті, нулів і одиниць ( бітів) в комп'ютері).


1. Набір символів в комп'ютері

Символи в комп'ютері зазвичай кодуються одним або кількома байтами (групами з восьми бітів).

Хоча термін "набір символів" ( англ. character set, charset ), Узаконений інтернет-стандартом RFC 2278, зараз є, мабуть, найбільш авторитетним, що передував йому термін "кодування" ( англ. encoding ) Як і раніше використовується як синонім, зокрема, в мовах програмування Java [1], Perl [2] і XSLT [3], а також у HTML [4].

Нерідко також замість терміна "набір символів" неправильно вживають термін " кодова сторінка ", що означає насправді окремий випадок набору символів з ​​однобайтні кодуванням.

В даний час в основному використовуються кодування трьох типів: сумісні з ASCII, сумісні з EBCDIC і засновані на Юникоде 16-бітові, з переважною перевагою перших. Подання UTF-8 Юнікод сумісно з ASCII. Кодування на базі EBCDIC (наприклад, ДКОИ-8) використовуються тільки на деяких мейнфреймах. Спочатку в кожній операційній системі використовувався один набір символів. Тепер використовувані набори символів стандартизовані [5], залежать від типу операційної системи лише за традицією й установлюються згідно локалі.

В Вікіпедії та інших проектах Фонду Вікімедіа використовується Юнікод UTF-8.


2. Автоматичне розпізнавання кодувань

Використання безлічі кодувань в сучасному ПО створює багато незручностей не тільки програмістам, але й користувачам. Згідно одній точці зору, впоратися з кракозябри можна, якщо програми будуть автоматично розпізнавати кодування вхідного тексту.

Для однобайтних кодувань можна враховувати той факт, що частота використання різних букв сильно розрізняється (наприклад, в російській часто використовується "о", але рідко "ь"). Тому, знаючи мову тексту, можна легко вибрати кодування, в якому частота байтів краще відповідає частоті букв цієї мови.

Альтернативна точка зору вважає подібні евристичні алгоритми визначення кодування тексту шкідливими, оскільки сучасні інформаційні технології мають коштів недвозначно зіставити тексту належну йому кодову сторінку (див., наприклад, MIME). Широке ж поширення евристичних аналізаторів заохочує використання неякісних програм створення текстових даних, що порушують стандарти.


3. Поширені кодування


Примітки

Кодування символів
Основи → алфавіт текст ( файл дані) набір символів конверсія
Історичні кодування → Докомп.: семафорна (Макарова) Морзе Бодо МТК-2 Комп.: 6 біт УПП RADIX-50 EBCDIC ( ДКОИ-8) КОИ-7 ISO 646
сучас-
менное
8-бітове
представ-
ня
символи ASCII ( керуючі друковані) не-ASCII ( псевдографіка)
8біт. код.стр. Різні → Кирилиця: КОИ-8 ГОСТ 19768-87 MacCyrillic
ISO 88591 (лат.) 2 3 4 5 (кір.) 6 7 8 9 10 11 12 13 14 15 () 16
Windows → 1250 1251 (кір.) 1252 1253 +1254 один тисячі двісті п'ятьдесят п'ять тисячу двісті п'ятьдесят-шість один тисяча двісті п'ятьдесят сім 1258 | WGL4
IBM & DOS → 437 850 852 855 866 "альт." ( МІК) ( НДІ ЕОМ)
Багато-
байтним
Традиційні → DBCS ( GB2312) HTML
UnicodeUTF-16 UTF-8 список символів ( кирилиця)
Пов'язані
теми →
інтерфейс користувача розкладка клавіатури локаль переклад рядка шрифт кракозябри трансліт нестандартні шрифти текст як зображення Утиліти: iconv recode

Цей текст може містити помилки.

Схожі роботи | скачати

Схожі роботи:
Переносимий набір символів
Набір
Ручний набір
Набір і Фелікс
Оптичне розпізнавання символів
Кодування символів в HTML
Чутливість до регістру символів
Таблиця математичних символів
Таблиця математичних символів
© Усі права захищені
написати до нас
Рейтинг@Mail.ru