Знаймо

Додати знання

приховати рекламу

Цей текст може містити помилки.

Текстові дані



План:


Введення

Текстові дані (також дані в текстовому форматі) в обчислювальних системах - це послідовність символів, відпо в тому чи іншому наборі символів буквам алфавіту і знаків пунктуації. Кожен символ з використовуваного в пристрої набору символів зазвичай кодується у вигляді одного байта (у разі Unicode це можуть бути групи по два і більше байтів).

Нерідко текстові дані розуміються в більш вузькому сенсі - як послідовності символів, що мають осмислене зміст, який може бути прочитане і зрозуміле людиною (див.: текст).

Даним в текстовому форматі протиставляються двійкові дані, не розраховані на інтерпретацію як текст, наприклад, закодовані звук або зображення. В комп'ютерних системах текстовим даними приписується MIME -тип "text / plain".

Для більшої частини комп'ютерного обладнання і програм неважливо, чи є дані текстовими. Однак багато мережні протоколи розраховані на роботу тільки з текстовими даними й не можуть обробляти довільну послідовність байтів. Також, деякі програми обробляють текстові й двійкові дані по-різному, а деякі призначені для обробки саме текстових даних. Програми для створення і редагування текстових даних називаються текстовими редакторами.


1. Структура

Текстовими даними як правило називаються послідовності з підмножини знаків, що включає тільки друковані знаки ( літери, цифри, знаки пунктуації) і деякі управляючі знаки ( прогалини, табуляції, переклади рядка). Існують методи (наприклад, UUENCODE), що дозволяють представити в текстовому форматі довільні дані будь-якого формату.

Вимога до можливості розуміння вмісту людиною вносить додаткову надмірність до подання даних. Наприклад, число 123, для кодування якого достатньо одного 8-бітного байта, у текстовому вигляді кодується декількома цифровими символами - так, в десятковій системі числення для цього потрібно три знака ("123"), в двійковій - сім знаків ("1111011"), в шістнадцятковій - два ("7B").


1.1. Розбиття на рядки

Текстові дані можуть розділятися на рядки. На деяких платформах (в основному, в операційних системах сімейства Unix) розбиття на рядки кодується одним керуючим знаком з кодом 10 в таблиці ASCII (найменування - Line Feed, LF), на інших (наприклад, в MS-DOS і Microsoft Windows) - парою керуючих знаків з кодами 13 та 10 (Carriage Return і Line Feed). В Mac OS (але не Mac OS X) розбиття кодується одним знайомий з кодом 13.

Таке розбиття керуючим знаком або знаками продиктовано тим, як працювали друкарські машинки, через які здійснювався введення в деяких перших комп'ютерах - позиція введення там вказувалася становищем валика c папером, і для повороту валика і переходу до наступного рядка потрібно натискання однієї або двох клавіш або важелів.

Також, знаки розбиття рядків використовувалися для управління механічними принтерами (у якості яких могли виступати ті ж друкарські машинки, які використовуються і для введення) - знак LF викликав прокручування рулону з папером, а знак CR викликав повернення друкованої каретки (там, де вони були) на початок рядка. Звідси і назва знаків - англ. Line Feed (Переклад рядки) та англ. Carriage Return (Повернення каретки).

На деяких платформах розбивка на рядки робилося інакше - текст представлявся у вигляді послідовності записів фіксованої довжини, для чого більш короткі рядки доповнювалися потрібною кількістю пробілів. Це відповідало поданням даних на перфокартах, які служили засобом введення і навіть зберігання даних.


2. Використання

Текстовий файл, показаний командою cat у вікні xterm

Основна мета застосування текстових даних - "спільний знаменник", незалежність від окремих програм, що вимагають власного спеціального кодування або форматування (зі своїми жертвами і обмеженнями) і несумісних з іншими програмами. Текстові файли (файли в текстовому форматі) можу бути відкриті, прочитані і відредаговані в будь-яких текстових редакторах, таких як MS-DOS Editor (англ.) ( DOS), Блокнот ( Windows), ed, vi і vim ( Unix, Linux), SimpleText (англ.), TextEdit ( Mac OS X) і т.п. Інші програми також як правило вміють читати і імпортувати текстові дані. Дивитись текстові файли можна також вбудованими командами ( type в DOS і Windows) і утилітами ( cat в Unix).

Текстовий формат часто використовуються для подання даних, які самі не є чисто текстовими. У цьому випадку інші формати даних "надбудовуються" над простим текстом, для чого їх керуючі конструкції виражаються за допомогою друкованих слів і знаків пунктуації. Це забезпечує зручність роботи з даними на двох рівнях - наприклад, дані HTML і XML можна переглядати і редагувати за показом форматування в режимі WYSIWYG, а можна їх відкрити в звичайному текстовому редакторі і мати доступ до всіх тонкощів мови розмітки. При зберіганні даних в бінарному вигляді (як це робиться в Microsoft Word ранніх версій) з ними можна працювати тільки в режимі WYSIWYG, до того ж нерідко з файлами в таких форматах не можна працювати в інших програмах (через недоступність інформації про способи реалізації формату) або навіть у різних версіях однієї і тієї ж програми.

Більшість мов програмування використовують текстовий формат для подання вихідного коду програм. Крім іншого, це дозволяє застосовувати до вихідного коду різноманітні утиліти для перетворень, оформлення, пошуку, статистики, аналізу і т.п. Ранні інтерпретатори Бейсіка зберігали вихідний код у своєму власному нетекстової форматі , Але потім від цього відмовилися через очевидних незручностей.

В файлах конфігурації багатьох програм застосовується текстовий формат, навіть якщо там представлені числа і виконавчі перемикачі (так / ні). Це дещо ускладнює програми через необхідність перетворення текстових даних у внутрішній формат і назад, але з'являється можливість правити конфігурацію "вручну", без використання засобів налаштування самої програми.


3. Тісні терміни

Термін відкритий текст ( англ. plaintext - Виглядає дуже схоже на термін англ. plain text , Який використовується для позначення текстових даних) широко застосовується в криптографії і означає будь незашифровані дані, у тому числі і нетекстові. Термін чистий текст ( англ. cleartext ) Також застосовується в криптографії і означає незашифровані дані, до того ж зрозумілі людині і незахищені від "підслуховування" при передачі.

Типи даних
Неінтерпретіруемие Біт Ніббл Байт Трит Трайт Слово
Числові Цілий Фіксована кома З плаваючою комою Раціональний Комплексний Довгий Інтервальний
Текстові Символьний Строковий
Покажчик Адреса Посилання
Композитні Алгебраїчний тип даних ( узагальнений) Масив Асоціативний масив Клас Список Об'єкт Option type Product Структура Безліч Об'єднання (tagged)
Інші Логічний Нижчий тип Колекція Перераховуються тип Виняток First-class function Opaque data type Recursive data type Семафор Потік Вищий тип Type class Unit type Void
Пов'язані теми Абстрактний тип даних Структура даних Інтерфейс Kind (type theory) Примітивний тип Subtyping Шаблон Конструктор типу Parametric polymorphism

Цей текст може містити помилки.

Схожі роботи | скачати

Схожі роботи:
Дані
Персональні дані
Брійан, Дані
Просторові дані
Дані (обчислювальна техніка)
© Усі права захищені
написати до нас