Знаймо

Додати знання

приховати рекламу

Цей текст може містити помилки.

Кодова сторінка



План:


Введення

Кодова сторінка ( англ. code page ) - Таблиця, що зіставляє кожному значенню байта деякий символ (або його відсутність). Зазвичай код символу має розмір 8 біт, так що кодова сторінка може містити максимум 256 символів, з чого випливає різка недостатність всякої 8-бітної кодової сторінки для подання багатомовних текстів. До того ж частина символів використовується як керуючі, через що число друкованих символів рідко перевищує 223 [1].

Історично термін code page був введений корпорацією IBM; змінні кодові сторінки використовувалися для підтримки різних мов (що мають алфавітні системи письма). Останнім часом є плутанина між терміном "кодова сторінка" і більш загальним поняттям набору символів (кодування).


1. Кодові сторінки сьогодні

В даний час в основному використовуються кодування двох типів: сумісні з ASCII і сумісні з EBCDIC [2], з переважною перевагою перших. В ASCII-сумісних кодуваннях фіксовані коди 95 друкованих символів і 33 керуючих, а решта 128 кодів позицій використовуються для різних символів, що не входять в ASCII.

Для кодування текстів російською мовою (тобто букв кирилиці) найбільш широко застосовуються такі кодові сторінки:

Використання різних кодових сторінок створює багато незручностей як для користувачів, так і для програмістів. При спробі прочитати текстовий файл за допомогою кодової сторінки, несумісної з тієї в якій він був створений, виникають кракозябри. В останні роки набув широкого поширення Unicode як альтернатива традиційним кодовою сторінок.


2. В системі Microsoft Windows

У системах Microsoft Windows кодові сторінки є важливим компонентом локалізації, що задається в ключах реєстру HKEY_LOCAL_MACHINE \ SYSTEM \ CurrentControlSet \ Control \ Nls \ CodePage \ [3].

Історично (у системах Windows 3.x і Windows 9x) було два типи кодових сторінок. Кодові сторінки "ANSI" [4] (англ. ANSI code page, в реєстрі: ACP), також звані Windows [5] - рідні кодові сторінки Windows. Містять багато символів типографіки, але майже не містять псевдографіку через те, що призначені для використання в графічному оточенні. Згодом корпорація Microsoft визнала, що використання імені ANSI було викликано непорозумінням. [6] до кодування "ANSI" / Windows відносять, зокрема, Windows-1252 і вищезазначену Windows-1251. Microsoft також відносить до кодовою сторінкам кодові таблиці, деякі позиції яких вимагають другого (завершального) байта для формування символу, тобто допускають двухбайтовое уявлення деяких символів [7], хоча вони, строго кажучи, є вже кодуваннями зі змінною довжиною символу.

Кодування OEM (англ. OEM code page, в реєстрі: OEMCP) засновані на CP437 і містять VGA -сумісну псевдографіку. Вищезазначена альтернативна кодування відома в Windows як CP866.

Починаючи з Windows NT з'явився третій клас кодових сторінок: кодування Macintosh (англ. Macintosh code page, в реєстрі: MACCP), сумісних з MacOS.


Примітки

  1. Одним з небагатьох винятків є кодування VISCII для в'єтнамської латиниці, сумісна з ASCII за вирахуванням шести кодів у зоні управляючих символів, замінених на літери, см. RFC 1456. Таким чином, вона містить 229 друкованих символів.
  2. Кодування на базі EBCDIC (наприклад, ДКОИ-8) використовуються тільки на деяких мейнфреймах.
  3. REG: CurrentControlSet, PART 1 - support.microsoft.com/kb/102987, Microsoft (Англ.)
  4. Кодові сторінки в Visual C + + - msdn.microsoft.com/ru-ru/library/2x8et5ee.aspx, MSDN
  5. Code Pages - msdn.microsoft.com/ru-ru/goglobal/bb964653.aspx, MSDN
  6. MSDN: Glossary of Terms - msdn.microsoft.com/ru-ru/goglobal/bb964658.aspx # a
  7. Windows code pages - msdn.microsoft.com/ru-ru/goglobal/bb964654.aspx, MSDN
Кодування символів
Основи → алфавіт текст ( файл дані) набір символів конверсія
Історичні кодування → Докомп.: семафорна (Макарова) Морзе Бодо МТК-2 Комп.: 6 біт УПП RADIX-50 EBCDIC ( ДКОИ-8) КОИ-7 ISO 646
сучас-
менное
8-бітове
представ-
ня
символи ASCII ( керуючі друковані) не-ASCII ( псевдографіка)
8біт. Код.стр. Різні → Кирилиця: КОИ-8 ГОСТ 19768-87 MacCyrillic
ISO 88591 (лат.) 2 3 4 5 (кір.) 6 7 8 9 10 11 12 13 14 15 () 16
Windows → 1250 1251 (кір.) 1252 1253 +1254 один тисячі двісті п'ятьдесят п'ять тисячу двісті п'ятьдесят-шість один тисяча двісті п'ятьдесят сім 1258 | WGL4
IBM & DOS → 437 850 852 855 866 "альт." ( МІК) ( НДІ ЕОМ)
Багато-
байтним
Традиційні → DBCS ( GB2312) HTML
UnicodeUTF-16 UTF-8 список символів ( кирилиця)
Пов'язані
теми →
інтерфейс користувача розкладка клавіатури локаль переклад рядка шрифт кракозябри трансліт нестандартні шрифти текст як зображення Утиліти: iconv recode

Цей текст може містити помилки.

Схожі роботи | скачати

Схожі роботи:
Сторінка
Веб-сторінка
Імпульсно-кодова модуляція
Диференціальна імпульсно-кодова модуляція
© Усі права захищені
написати до нас
Рейтинг@Mail.ru