Метадані

Метадані, в загальному випадку, це:

  1. Метадані - це неоднорідними інформація про використовувані даних [1].
  2. Структуровані дані, що представляють собою характеристики описуваних сутностей для цілей їх ідентифікації, пошуку, оцінки, управління ними [2].
    • набір допустимих структурованих описів, які доступні в явному вигляді і призначення яких може допомогти знайти об'єкт [3]. Термін використовується в контексті пошуку об'єктів, сутностей, ресурсів.
  3. Дані з більш загальної формальної системи, яка описує задану систему даних.
  4. Інформація про втримується на веб-сторінці інформації (творця і т. п.). Приклад: Ім'я автора правки в тексті. Цей термін в широкому сенсі слова використовується для будь-якої інформації про даних: іменах таблиць, колонок в таблиці в реляційних базах даних, номер версії у файлі програми (тобто як інформативна частина в бінарному файлі) і т. п.

1. Ієрархії метаданих

Структуровані у вигляді ієрархії метадані більш правильно називати онтологією або схемою метаданих (наприклад, XML-схема).

2. Різниця між даними і метаданими

Зазвичай неможливо провести однозначне розділення на дані та метадані в документі, оскільки:

  • Щось може бути як даними, так і метаданими. Так, заголовок статті можна одночасно віднести як до метаданих (як елемент метаданих - заголовок), так і до власне даними (оскільки заголовок є частиною самого тексту).
  • Дані та метадані можуть мінятися ролями. На вірш, що розглядається як дані, може бути написана музика, в цьому випадку все вірш може бути "прикріплено" до музичного файлу і в цьому випадку розглядатися як метадані. Таким чином, віднесення до однієї чи іншої категорії залежить від точки зору (або простору імен, системи відліку).
  • Можливе створення мета-мета-...-метаданих (див. аксіома вибору). Оскільки, відповідно до звичайним визначенням, метадані є даними, то можна створити метадані на метадані, метаданниенія для виведення на спеціальні пристрої, або читання їх опису з використанням програмного забезпечення, що перетворює текст в мову.

Інші описові метадані можуть використовуватися автоматизованими робочими потоками. Наприклад, якщо деяка "розумна" програма "знає" вміст і структуру даних, то дані можуть бути автоматично перетворені й передані іншій "розумної" програмі як вхідні дані. В результаті, користувачі будуть врятовані від необхідності виконання безлічі рутинних операцій, якщо дані надані для роботи такими "небагатослівним" програмам.

Метадані стають важливими в World Wide Web з причини необхідності забезпечення пошуку корисної інформації серед величезної кількості доступної. Метадані, створені вручну, мають велику цінність, оскільки це гарантує осмисленість. Якщо веб-сторінка на якусь певну тему містить слово або фразу, то всі інші веб-сторінки на цю тему можуть містити таке ж слово або фразу. Метадані також володіють різноманітністю, тому якщо з якоїсь темою пов'язані два значення, то кожне з них може бути використано. Наприклад, стаття про Живий Журнал може бути позначена за допомогою кількох значень: "Живий Журнал", "ЖЖ", "LiveJournal".

Метадані використовуються для зберігання інформації про записи audio CD. Аналогічно MP3 файли зберігають метадані у форматі ID3.

Редагувати метадані графічних файлів можна в спеціальних програмах для роботи з метаданими.


3. Класифікація метаданих

Метадані можна класифікувати за:

  • Змістом. Метадані можуть або описувати сам ресурс (наприклад, назва і розмір файлу), або вміст ресурсу (наприклад, "в цьому відеофайлі показано як хлопець грає у футбол").
  • По відношенню до ресурсу в цілому. Метадані можуть ставитися до ресурсу в цілому або до його частин. Наприклад, "Title" (назва фільму) відноситься до фільму в цілому, а "Scene description" (опис епізоду фільму) окреме для кожного епізоду фільму.
  • По можливості логічного висновку. Метадані можна підрозділити на три шари: нижній шар - це "сирі" дані самі по собі; середній шар - метадані, що описують ці дані; та верхній шар - метадані, які дозволяють робити логічний висновок, використовуючи другий шар.

4. Формат метаданих

Метаданими на практиці зазвичай називають дані, представлені у відповідності з одним із форматів метаданих.

Формат метаданих - являє собою стандарт, призначений для формального опису деякої категорії ресурсів (об'єктів, сутностей і т. п.). Такий стандарт зазвичай включає в себе набір полів (атрибутів, властивостей, елементів метаданих), що дозволяють характеризувати даний об'єкт. Наприклад, формат MARC дозволяє описувати книги (і не тільки книги), містить поля для опису назви, автора, тематики і величезної безлічі інших характеристик (формат MARC дозволяє описати сотні характеристик).

Формати можна класифікувати, по-перше, за охопленням і подробиці типів описуваних ресурсів. По-друге, по ширині і подробиці області опису ресурсів та потужності структури елементів метаданих. Крім цього, можна класифікувати за предметними галузями, або цілям розробки і використання формату метаданих.

Формати метаданих часто розробляються міжнародними організаціями або консорціумами, що включають в себе зацікавлені в появі стандарту державні організації і приватні компанії. Розроблений формат часто закріплюється як стандарт в одній або декількох організаціях, що займаються розробкою і прийняттям стандартів (наприклад W3C, ISO, ANSI і т. п.)

Класифікація форматів метаданих по описуваної предметної області:

  • DCMI є одним з найбільш поширених в інтернет форматів метаданих для опису ресурсів будь-якого типу (як електронних документів, так і реальних фізичних об'єктів). Інші формати метаданих, призначені для опису архівів та електронних ресурсів GILS, EAD.
  • для опису персон і організацій vCard і FOAF
  • для опису бібліографічних ресурсів призначені формати сімейства MARC (MARC 21, використовуваний в США і Великобританії, і UNIMARC, використовуваний в Європі та Азії); UNIMARC в свою чергу поділяється на національні розширення цього формату (так, в Росії використовується RUSMARC); чинності великої складності форматів сімейства MARC для вирішення завдань інтеграції даних був розроблений формат MODS.
  • для опису музейних і історичних цінностей використовується формат CDWA
  • для опису видавничої продукції використовуються PRISM і ONIX
  • для кристалографічної інформації CIF
  • для роботи із зображеннями із супутників VICAR
  • для опису новин NewsXML

і т. д.