Знаймо

Додати знання

приховати рекламу

Цей текст може містити помилки.

Мова розмітки



План:


Введення

Мова розмітки ( тексту) в комп'ютерної термінології - набір символів або послідовностей, що вставляються в текст для передачі інформації про його виведення або будові. Належить класу комп'ютерних мов. Текстовий документ, написаний з використанням мови розмітки, містить не тільки сам текст (як послідовність слів і знаків пунктуації), але й додаткову інформацію про різних його ділянках - наприклад, вказівка ​​на заголовки, виділення, списки і т. д. У складніших випадках мова розмітки дозволяє вставляти в документ інтерактивні елементи і зміст інших документів.

Слід особливо підкреслити, що мова розмітки не є мовою програмування.


1. Логічна і візуальна розмітки

Розрізняють логічну й візуальну розмітки. У першому випадку мова йде тільки про те, яку роль відіграє ця ділянка документа в його загальній структурі (наприклад, "даний рядок є заголовком"). У другому визначається, як саме буде відображатися цей елемент (наприклад, "цей рядок слід відображати жирним шрифтом"). Ідея мов розмітки полягає в тому, що візуальне відображення документа повинно автоматично отримуватися з логічної розмітки і не залежати від його безпосереднього змісту. Це спрощує автоматичну обробку документа і його відображення в різних умовах (наприклад, один і той же файл може по-різному відображатися на екрані комп'ютера, мобільного телефону та на печатці, оскільки властивості цих пристроїв виведення істотно різняться). Однак це правило часто порушується: наприклад, створюючи документ в редакторі на зразок MS Word, користувач може виділяти заголовки жирним шрифтом, але ніде не вказувати, що цей рядок є заголовком.


2. Приклади мов розмітки

Мови розмітки використовуються скрізь, де потрібна висновок форматованого тексту: в друкарні ( SGML, TeX, PostScript, PDF), призначених для користувача інтерфейсах комп'ютерів ( Microsoft Word, OpenOffice, troff), Всесвітній Мережі ( HTML, XHTML, XML, WML, VML, PGML, SVG, XBRL).

Для написання вихідних текстів Вікіпедії, її учасники використовують особливу мову розмітки (див. Вікіпедія: Як правити статті), а для відображення складних математичних формул - мова TeX.


3. Полегшені мови розмітки

Мови, призначені для простого і швидкого написання тексту у простому текстовому редакторі, називаються полегшеними (en: Lightweight markup language). Особливості таких мов:

  • Мінімум функцій.
  • Невеликий набір підтримуваних тегів.
  • Легкі в освоєнні.
  • Оригінальний текст на такій мові читається з такою ж легкістю, як і готовий документ.

Застосовуються вони там, де людині доводиться готувати текст у звичайному текстовому редакторі ( блоги, форуми, вікі), або там, де важливо, щоб користувач зі звичайним текстовим редактором також міг прочитати текст. Ось декілька широко поширених полегшених мов розмітки:


4. Історія

Термін "розмітка" (як результат однойменного процесу, англ. Markup) походить від англійського словосполучення "marking up" ("розмітка (як процес)", букв. "Помечіваніе, размечіваніе"), взятого з традиційної видавничої практики проставлення спеціальних умовних позначок на полях і в тексті рукопису або коректури перед передачею її до друку. Таким чином "Розмітники" (markup men) вказували гарнітуру, стиль і розмір шрифту для кожної частини тексту. У наш час розміткою тексту займаються редактори, коректори, графічні дизайнери - і, звичайно ж, самі автори.


4.1. GenCode

Ідея використовувати мови розмітки в комп'ютерній обробці текстів, найімовірніше, була вперше оприлюднена Вільямом Таннікліффом ( англ. William W. Tunnicliffe ) На конференції в 1967. Сам він називав свою пропозицію "універсальним кодуванням" ( англ. "Generic coding" ). В 1970-і роки Таннікліфф керував розробкою стандарту GenCode для видавничої індустрії і пізніше зайняв пост керівника одного з комітетів Міжнародної організації зі стандартизації (ISO, англ. International Organization for Standartization ), Який створив SGML, перший описовий мову розмітки. Брайан Рейд ( англ. Brian Reid ) У своїй дисертації, яку він захистив у 1980 в університеті Карнегі ( англ. Carnegie Mellon University ), У розвиток запропонованої концепції здійснив практичну реалізацію описової розмітки.

Тим не менш, у даний час "батьком" мов розмітки зазвичай називають дослідника IBM Чарльза Голдфарб ( англ. Charles Goldfarb ). Основна концепція народилася у нього в 1969, при роботі над примітивною системою управління документами, призначеної для адвокатських контор. У тому ж році він взяв участь у створенні мови IBM GML, який був вперше представлений в 1973.

В 1975 Голдфарб переїхав з Кембриджа, Массачусетс в Силіконову долину, де став розробником дослідного центру IBM Almaden Research Center. Там він у 1978 переконав керівництво IBM використовувати GML в комерційних цілях у складі розробленого компанією "засоби формування документів" ( англ. Document Composition Facility ), Після чого GML кілька років широко використовувався в бізнесі.

У 1978 році почалися перші розробки, які в кінцевому результаті привели до створення стандарту SGML, заснованого на GML і GenCode. Сам Голдфарб пізніше очолив комітет з SGML, який був прийнятий організацією ISO в якості стандартного в жовтні 1986.

Деякі ранні реалізації комп'ютерних мов розмітки можна виявити в друкарських утилітах UNIX, таких як troff і nroff. Вони дозволяють вставляти команди форматування в текст документа для його форматування згідно з вимогами редактора.

Доступність видавничого софта з функцією WYSIWYG ( англ. "What you see is what you get" - "Що побачиш, то й отримаєш") витіснила більшість цих мов серед звичайних користувачів, хоча серйозна видавнича робота, як і раніше використовує розмітку для специфічних не візуальний структур тексту, а WYSIWYG-редактори зараз найчастіше зберігають документи в форматах, заснованих на мовах розмітки .


4.2. Τ Ε Χ

Інший важливий видавничий стандарт - це Τ Ε Χ , Створений і згодом покращений Дональдом Кнутом в 70е-80е роки двадцятого століття. Τ Ε Χ зібрав воєдино високі можливості форматування тексту та опис шрифтів, особливо для математичних книг професійної якості. В даний час Τ Ε Χ є стандартом де-факто в багатьох наукових дисциплінах. Крім Тих існує LaTeX, який представляє собою широко використовується описову систему розмітки на основі Τ Ε Χ .


4.3. Scribe, GML та SGML

Першою мовою з чітким і ясним відмінністю між структурою і виглядом документа був Scribe, був створений і описаний докторською дисертацією Брайана Рейда (Brian Reid) в 1980 році. Scribe був революційним у кількості способів обробки, не в останню чергу через введеної ідеї стилів, відокремлених від власне тексту і граматики і керуючих використанням описових елементів. Scribe вплинув на розробку мови GML (пізніше SGML), а також він є прямим предком мов HTML і LaTeX.

На початку 80х ідея, що розмітка повинна бути сфокусована на структурних аспектах документа і повинна залишити зовнішнє подання документа інтерпретатору, призвела до створення SGML. Мова був розроблений комітетом, очолюваним Голдфарбом. Він об'єднав ідеї з багатьох джерел, включаючи Тьюннікоффлікскій проект, GenCode. Шерон Адлер (Sharon Adler), Андерс Бергланд (Anders Berglund) і Джеймс А. Марк (James A. Marke) так само були ключовими членами комітету SGML.

SGML точно визначав синтаксис для включення розмітки в текст, а також окремо описував, які теги дозволені і де (DTD - Document Type Definition). Це давало можливість авторам створювати і використовувати будь-яку розмітку, яку вони захочуть, вибираючи теги для використання і даючи їм імена нормальною мовою. Таким чином, SGML слід вважати мета-мовою; множинні спеціальні мови розміток походять від нього. Пізні 80ті були найбільш значущими в появі нових мов розміток, заснованих на SGML, наприклад TEI і DocBook.

У 1986 році SGML був опублікований як міжнародний стандарт ISO організацією під номером 8879. SGML знайшов широке визнання і широко використовувався в дуже великих проектах. Як би там не було, в цілому було виявлено, що він громіздкий і важкий для вивчення, побічним ефектом мови було в тому, що він намагався зробити занадто багато і бути надто гнучким. Для прикладу, SGML створював не завжди потрібні закривають теги (або відкривають, або навіть обидва), бо вважав, що ця розмітка буде добавлена ​​вручну, штатом підтримки проекту, які б оцінили економію натисків клавіш.


4.4. HTML

До 1991 року використання SGML було обмежено бізнес-програмами і базами даних, а WYSIWYG-інструменти (які зберігали документи в пропрієтарних бінарних форматах) використовувалися для інших програм обробки документів. Ситуація змінилася, коли сер Тім Бернерс-Лі, дізнавшись про SGML від свого колеги Андерса Бергланд ( англ. Anders Berglund ) Та інших співробітників в ЦЕРНі, використовував синтаксис SGML для створення HTML. Ця мова мав схожість з іншими заснованими на синтаксисі SGML мовами розмітки, однак почати його використання було набагато простіше навіть тим розробникам, які ніколи цього не робили. Стівен ДеРоуз (Steven DeRose) переконував, що HTML, використовує описову розмітку (і від мови SGML зокрема) - це основний фактор у розвитку Web, бо в ньому була закладена гнучкість і розширюваність (а також інші фактори, включаючи поняття про URL та вільне використання браузерами). У наш час HTML - найбільш привабливий і самий часто використовуваний мова розмітки у світі.

Однак статус HTML як мови розмітки заперечується деякими комп'ютерними вченими. Їх основним аргументом є те, що HTML обмежує розміщення тегів, вимагаючи, щоб обидва тега були вкладені в інші теги або в головні теги документа. Внаслідок чого, ці вчені вважають HTML контейнерним мовою, наступним ієрархічної моделі.


4.5. XML

XML (розширювана мова розмітки) - це мета-мова розмітки, широко використовуваний в даний час. XML розроблений консорціумом World Wide Web в комітеті, очолюваному Джоном Босаком (Jon Bosak). Основне призначення XML - бути простішим, ніж SGML і сфокусуватися на специфічною проблеми - документах в інтернеті. XML - мета-мова як SGML, користувачам дозволяється створювати будь-які теги, які необхідні (звідси "розширюваний"). Становленню XML допомогли, так як кожен XML-документ міг бути написаний таким же способом, як і SGML-документ, а програми і користувачі, які використовують SGML, могли перейти на XML досить легко.

Тим не менш, XML позбувся багатьох орієнтованих на людей особливостей мови SGML, спрощує його використання (поки не розширилася кількість розмітки і не відновилася читаність і редагованого на колишньому рівні). Інші поліпшення виправляли деякі проблеми SGML на міжнародному рівні і робили можливим розбір документа ієрархічно, навіть якщо не був доступний DTD.

XML був спроектований, в основному, для не повністю структурованої середовища, наприклад для документів і публікацій. Тим не менш, це призвело до золотої середини між гнучкістю і простотою, і він був швидко прийнятий багатьма користувачами. В даний час XML широко використовується для передачі даних між програмами. Як HTML, він може бути охарактеризований як "контейнерний" мову.


4.5.1. XHTML

Починаючи з січня 2000 року, всі рекомендації для W3C були засновані на XML більшою мірою, ніж на SGML, була запропонована абревіатура XHTML (Extensible HyperText Markup Languge - Розширюваний Гіпертекстовий Мова Розмітки). Специфікації мови вимагали, щоб XHTML-документи були оформлені як XML-документи, це дозволяє використовувати XHTML для більш чітких і точних документів, використовуючи теги від HTML.

Одне з найбільш гідних уваги відмінностей між HTML і XHTML - це правило, яке говорить, що всі теги повинні бути закритими: порожні теги, наприклад />, мають бути обидва закриті стандартним закриває тегом або спеціальної записом: /> (пробіл перед "/" в закриває теге опціональний, але часто використовується, оскільки його використовують деякі пре-XML браузери, також SGML-парсери). Інші атрибути в тегах повинні бути в лапках. Нарешті, всі теги та імена атрибутів повинні бути написані в нижньому регістрі, щоб сприйматися правильно; HTML несприйнятливий до регістру.


4.5.2. Інші розробки, засновані на XML

Зараз використовуються багато розробки, засновані на XML, наприклад RDF (Resource Descriprtion Framework - Фреймворк Опис Ресурсів), XFORMS, DocBook, SOAP і OWL (Ontology Web Language).

5. Особливості

Загальна риса всіх мов розмітки в тому, що вони перемішують текст документа з інструкціями розмітки в потоці даних або файлі. Це не необхідність, можливо ізолювати розмітку від тексту, використовуючи покажчики, мітки, ідентифікатори або інші методи координації. Така "відділена розмітка" характерна для внутрішнього представлення програм, що працюють з розміченими документами. Тим не менш, впроваджена або "міжрядковий" розмітка більш прийнята де б то не було. Ось, для прикладу, невелика частина тексту, розміченого за допомогою HTML:

 

Anatidae

The family Anatidae includes ducks, geese, and swans, but not the closely-related screamers.

Код розмічальних інструкцій (відомий як теги) обведений кутовими дужками <як тут>. Текст, що знаходиться між цими інструкціями, є текстом документа. Коди h1, p і em - приклади структурної розмітки, вони описують позицію, призначення або значення тексту, включеного до них.

Більш точно, h1 означає "це заголовок першого рівня", p значить "це параграф", а em означає "це підкреслене слово чи фраза". Інтерпретує програма може застосовувати ці правила або стилі для показу різних частин тексту, використовуючи різні гарнітури, розміри шрифту, відступи, колір або інші стилі, якщо це необхідно. Такий тег, як h1, може бути, наприклад, представлений великою жирним друкарським шрифтом, або в документі з моноширінним текстом (як на друкарській машинці) може бути підкресленим, або може взагалі не міняти зовнішній вигляд.

Для контрасту, тег i в HTML - приклад візуальної розмітки; зазвичай він використовується для визначення специфічних особливостей тексту (в цьому блоці використовувати похилу гарнітуру) без пояснення причин.

TEI (Tex Encoding Initiative) опублікувала всебічні керівні документи, що вказують кодувати текст в інтересах людства і наукових товариств. Ці керівництва використовувалися для кодування історичних документів, специфічних роботах вчених, періодиці і так далі.


6. Альтернативне використання

Поки розвивалася ідея використовувати мови розмітки з текстовими документами, це збільшило використання мов розмітки в інших областях, запропонували використовувати їх для представлення різних типів інформації, включаючи плейлисти, векторну графіку, веб-сервіси, інтерфейси користувача. Більшість цих програм грунтується на XML, тому що це добре структурований і розширювана мова.

Використання мови XHTML також показує, що його можна комбінувати з різними мовами розмітки одного профілю, наприклад XHTML + SMIL або XHTML + MathML + SVG.



Цей текст може містити помилки.

Схожі роботи | скачати

Схожі роботи:
Тег (мови розмітки)
Ро (мова)
На'ві (мова)
Хо (мова)
Га (мова)
Мова
У (мова)
Мова
Яо (мова)
© Усі права захищені
написати до нас
Рейтинг@Mail.ru