Семантична павутина

Не слід плутати з Семантична мережа.

Семантична павутина ( англ. Semantic Web ) - Це напрямок розвитку Всесвітньої павутини, метою якого є представлення інформації у вигляді, придатному для машинної обробки.

У звичайній Павутині, заснованої на HTML -сторінках, інформація закладена в тексті сторінок і витягується людиною за допомогою браузера. Семантична ж павутина припускає запис інформації у вигляді семантичної мережі за допомогою онтологій. Таким чином програма- клієнт може безпосередньо витягати з павутини факти і робити з них логічні висновки. Семантична павутина працює паралельно зі звичайною Павутиною і на її основі, використовуючи протокол HTTP і ідентифікатори ресурсів URI.

Термін "семантична павутина" був вперше введений сером Тімом Бернерсом-Лі (винахідником Всесвітньої павутини) в травні 2001 в журналі " Scientific American " [1], і називається їм "наступним кроком у розвитку Всесвітньої павутини". Пізніше у своєму блозі він запропонував [2] в якості синоніма термін Гігантський Глобальний Граф (Giant Global Graph, GGG, за аналогією з WWW). Концепція семантичної павутини була прийнята і просувається Консорціумом Всесвітньої павутини [3].


1. Основна ідея

Семантична павутина - це надбудова над існуючою Всесвітньою павутиною, яка покликана зробити розміщену в ній інформацію більш зрозумілою для комп'ютерів. Машинна обробка можлива в семантичній павутині завдяки двом її найважливіших характеристик.

Граф візитної картки засновника Вікіпедії у форматі RDF. Елементи цього графа - як вузли, так і дуги (крім літерала, зображеного в помаранчевому прямокутнику [4]) - є URI.
  • Повсюдне використання уніфікованих ідентифікаторів ресурсів ( URI), широко відомих як адреси. Традиційно в Інтернеті ці ідентифікатори використовуються для установки посилань на адресується об'єкт (наприклад, веб-сторінку, файл або ящик електронної пошти). У семантичній павутині URI використовуються також для іменування об'єктів, тобто кожен URI однозначно називає деякий об'єкт. Свої URI в семантичній павутині є не тільки у сторінок, але і у об'єктів реального світу (людей, міст, художніх творів і так далі), і навіть у абстрактних понять (наприклад, у властивостей "ім'я", "посада", "колір" ). Оскільки URI глобально унікальні, вони дозволяють називати одні й ті ж предмети у різних місцях в семантичній павутині. При цьому URI протоколу HTTP (тобто починаються з http://) можна одночасно використовувати як адреси документів, що містять машино-читані опису цих предметів [5].
  • Використання семантичних мереж і онтологій. Сучасні методи автоматичної обробки даних, доступних в Інтернеті, як правило, засновані на частотному і лексичному аналізі текстового вмісту, яке перш за все призначений для сприйняття людиною. У семантичній павутині замість цього використовується стандарт RDF, що описує семантичні мережі ( графи), в яких вузли і дуги мають URI. Твердження, що кодуються за допомогою RDF, надалі можна інтерпретувати за допомогою онтологій, створених за стандартами RDF Schema і OWL, щоб отримувати з них логічні висновки. В основі онтологій лежать математичні формалізму, звані дескріпціоннимі логіками.

2. Критика

2.1. Практична нереализуемость

У 2006 році журнал " IEEE Intelligent Systems "опублікував нову статтю Тіма Бернерса-Лі" Semantic Web Revisited "(" Семантична павутина: перегляд ") [6], в якій автор називає описаний підхід до організації інформації в вебі "простою ідеєю, до цих пір у великій мірі нереалізованою ". Незважаючи на всі переваги, надані семантичної павутиною в разі її впровадження, інші автори [ хто? ] також висловлюють сумніви в можливості її повної реалізації.

Коментатори вказують на різні причини, які можуть бути перешкодою до цього, починаючи з людського фактору [7] (люди схильні уникати роботи по підтримці документів з метаданими, відкритими залишаються проблеми істинності метаданих, і т. д.), і закінчуючи непрямою вказівкою Аристотеля на відсутність очевидного способу поділу світу на помітні концепти. Це ставить під сумнів можливість існування онтології верхнього рівня, критичної для семантичної павутини. Аристотель в "Топіці" використовує поняття differentia specifica, або наявність у понять помітного якості, як основу для угрупування понять в класи. Філософ упевнений в наявності нескінченного числа понять, з чого випливає нескінченність числа класів, в які їх можна об'єднати. Для виділення такої кількості класів необхідно нескінченно багато помітних якостей, наявність яких Аристотель піддає сумніву.


2.2. Дублювання інформації

Необхідність опису метаданих так чи інакше призводить до дублювання інформації. Кожен документ повинен бути створений в двох примірниках: розмічених для читання людьми, а також в машинно-орієнтованому форматі. Цей недолік семантичної павутини був головним поштовхом до створення так званих мікроформати [8] та мови RDFа [9]. Останній є варіантом мови RDF і відрізняється від нього тим, що не визначає власного синтаксису, а призначений для впровадження в XML-атрибути XHTML-сторінок.


2.3. Неможливість отримання комерційної вигоди

Відомо, що основне фінансування сучасних інтернет-ресурсів (за винятком суворо некомерційних проектів) забезпечують рекламодавці. Головний критерій, від якого залежить вартість рекламного місця - відвідуваність сайту. Однак у випадку реалізації семантичних пошукових систем, які будуть самі відбирати і відразу надавати потрібну користувачу інформацію, відпадає необхідність відвідувати сайт - джерело матеріалу, а значить користувач не побачить рекламу, і як наслідок припиниться фінансування інтернет-проектів. [10]


3. Реалізація

3.1. Мови опису

Стек понять семантичної павутини

Технічну частину семантичної павутини становить сімейство стандартів на мови опису, що включає XML, XML Schema, RDF, RDF Schema, OWL, а також деякі інші. Розташовуючи їх у порядку підвищення рівня абстракції, реалізованого тією чи іншою мовою, отримуємо:

  • XML надає синтаксис для визначення структури документа, що підлягає машинній обробці. Синтаксис XML не несе семантичного навантаження.
  • XML Schema визначає обмеження на структуру XML-документа. Стандартний синтаксичний аналізатор мови XML в змозі перевірити довільний XML-документ на відповідність його структури так званою схемою документа, описаної в XML Schema.
  • RDF являє собою простий спосіб опису екземплярність даних у форматі суб'єкт-відношення-об'єкт, в якому в якості будь-якого елемента цієї трійки використовуються тільки ідентифікатори ресурсів. Існує стандартизоване відображення цих трійок на XML-документи зумовленою структури (тобто консорціумом W3 визначена схема XML-документів, що містять RDF-опису), а також на інші формати представлення (наприклад, в нотацію N3).
  • RDF Schema описує набір атрибутів (тут їх точніше назвати відносинами), таких, як rdfs:Class, для визначення нових типів RDF-даних. Мовою підтримується також відношення спадкування типів rdfs:subClassOf.
  • OWL розширює можливості по опису нових типів (зокрема, додаванням перерахувань), а також дозволяє описувати нові типи даних RDF Schema в термінах вже існуючих (наприклад, визначати тип, є перетинанням або об'єднанням двох існуючих).
  • Мікроданние (HTML microdata) - це міжнародний стандарт семантичної розмітки HTML-сторінок, за допомогою атрибутів, що описують зміст інформації, що міститься в тих чи інших HTML-елементах. Такі атрибути роблять контент сторінок машиночитаних, тобто дозволяють в автоматичному режимі знаходити і витягати потрібні дані.

3.2. Логічний висновок

Формати опису метаданих в семантичній павутині передбачають проведення логічного висновку на цих метаданих, і розроблялися з оглядкою на існуючі математичні формалізму в цій області. Формалізм, що лежить в основі формату, дає можливість робити висновки про властивості програм, оброблювальних дані в цьому форматі.

Особливо сильно це відноситься до мови OWL. Базовим формалізмом для нього є дескріпціонние логіки, а сама мова розбитий на три вкладених підмножини (в порядку вкладеності): OWL Lite, OWL DL і OWL Full [11]. Доведено [12], що логічний висновок на метаданих з виразністю OWL Lite виконується за поліноміальний час (іншими словами, завдання виведення належить до класу P). OWL DL описує максимальне можна розв'язати в даний момент підмножина дескріпціонних логік, але деякі запити за такими даними можуть вимагати експоненціального часу виконання. OWL Full реалізує всі існуючі конструктори дескріпціонних логік, але не кожен запит в цьому підмножині мови може бути дозволений (слово "дозволений" тут вживається у значенні, заснованому на корені "вирішувати").

Проста структура предикатів мови RDF, в свою чергу, дозволяє використовувати при його обробці досвід з теорій логічних баз даних, логіки предикатів і т. д.


4. Проекти

4.1. Дублінське ядро

Одним з перших серйозних і популярних проектів, заснованих на принципах семантичної павутини, став проект " Дублінське ядро "( англ. Dublin Core ), Реалізований ініціативною організацією Dublin Core Metadata Initiative (DCMI). Це відкритий проект, мета якого - розробити стандарти метаданих, які були б незалежними від платформ і підходили б для широкого спектру завдань. Конкретніше, DCMI займається розробкою словників метаданих загального призначення, стандартизирующих опису ресурсів у форматі RDF. [13]


4.2. RSS (версій 0.90 і 1.0)

Версії 0.90 і 1.0 формату RSS засновані на RDF. Інформація в ньому представляється як і в RDF, трійками суб'єкт-відношення-об'єкт. Необхідно відзначити, що незважаючи на те, що йому притаманні багато недоліки семантичної павутини (наприклад, дублювання інформації), цей найпростіший формат швидко став надзвичайно популярним за рахунок вузької категоризації підмножини використовуваних метаданих. Відмінність RSS від RDF полягає в тому, що суб'єктом трійки завжди є сайт-джерело RSS-файлу, а в якості відносин використовуються самі очевидні властивості документів, що мають відношення до часто оновлюється джерел інформації: дата написання, автор, постійна посилання, і т. д . Іншими словами, RSS - вузькоспеціалізоване підмножина RDF. [14]

Зауважимо, що формат RSS версії 2.0, хоча і не є форматом, заснованим на RDF, дозволяє впровадження довільного XML-вмісту, що знаходиться у власних просторах імен XML. Це дозволяє використовувати RDF-опису також і в ньому (використовуючи простір імен rdf). [15]


4.3. FOAF

Проект " Friend of a Friend "(" Друг друга ") дозволяє описувати відношення знайомства за допомогою RDF. Будь його учасник може ідентифікувати себе унікальним чином за допомогою URI (наприклад, mailto-адресою електронної пошти, адресою блогу, і т. п.), створити свій профіль, використовуючи зумовлені для FOAF відносини на мові RDF, і перерахувати ідентифікатори людей, яких цей учасник знає. Цей опис може оброблятися автоматично; на його основі можна будувати мережі довіри, аналізувати структуру соціальних груп, і т. д. [16]


4.4. DBpedia

DBpedia - проект, спрямований на витяг структурованої інформації з даних, створених в рамках проекту Wikipedia. DBpedia дозволяє користувачам запитувати інформацію, засновану на відносинах та властивостях ресурсів Вікіпедії, в тому числі посилання на відповідні бази даних. Розпочато групою добровольців з Вільного університету Берліна і Лейпцігського університету, у співпраці з OpenLink Software, і вперше був опублікований в 2007 році. Проект DBpedia використовує Resource Description Framework (RDF) для представлення витягнутої інформації. За станом на квітень 2010, бази даних DBpedia складаються з більш ніж 1 млрд одиниць інформації, з яких 257 млн були взяті з англійської версії Вікіпедії і 766 млн витягнуті з версій на інших мовах [17].


Примітки

  1. The Semantic Web. - www.scientificamerican.com/article.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21 Scientific American, 17 травня 2001, російський переклад: Семантична Мережа - ezolin.pisem.net / logic / semantic_web_rus.html
  2. Giant Global Graph. - dig.csail.mit.edu/breadcrumbs/node/215, російський переклад: Тім Бернерс-Лі. Гігантський Глобальний Граф - goodarticles.narod.ru / ggg.html
  3. Розділ про Семантичної павутині на сайті W3C - www.w3.org/standards/semanticweb/ (Англ.)
  4. Resource Description Framework (RDF): Concepts and Abstract Syntax - www.w3.org/TR/2004/REC-rdf-concepts-20040210/ (Англ.) . Консорціум Всесвітньої павутини (10 лютого 2004 року). - W3C Recommendation. Читальний - www.webcitation.org/61BH4vSAn з першоджерела 24 серпня 2011.
  5. Cool URIs for the Semantic Web - www.w3.org/TR/cooluris/ (Англ.) . Консорціум Всесвітньої павутини (3 грудня 2008 року). - W3C Interest Group Note. Читальний - www.webcitation.org/61BH5PARk з першоджерела 24 серпня 2011.
  6. Semantic Web Revisited - eprints.ecs.soton.ac.uk/12614/1/Semantic_Web_Revisted.pdf, IEEE Intelligent Systems, Червень 2006
  7. Cory Doctorow, Metacrap: Putting the torch to seven straw-men of the meta-utopia, - www.well.com/ ~ doctorow / metacrap.htm Серпень 2001
  8. Rohit Khare, Tantek elik, Microformats: A Pragmatic Path to the Semantic Web, - www.commercenet.com/images/e/ea/CN-TR-06-01.pdf Січень 2006
  9. RDFa Primer - www.w3.org/TR/xhtml-rdfa-primer/
  10. Ахіллесова п'ята Семантичного Вебу - www.computerra.ru/magazine/362912/, Компьютерра
  11. The Species of OWL in OWL Language Guide - www.w3.org/TR/owl-guide/ # OwlVarieties
  12. OWL Full, OWL DL and OWL Lite in OWL Language Reference - www.w3.org/TR/owl-ref/ # Sublanguage-def
  13. Dublin Core Metadata Initiative (DCMI) - dublincore.org /
  14. RSS 1.0 Specification - web.resource.org/rss/1.0/spec
  15. RSS 2.0 Specification - cyber.law.harvard.edu / rss / rss.html # extendingRss
  16. Friend of a Friend - www.link15
  17. DBpedia Mappings - mappings.link16

Література

  • Dieter Fensel, Wolfgang Wahlster, Henry Lieberman, James Hendler Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential. - The MIT Press, 2002. - ISBN 0262062321
  • Towards the Semantic Web: Ontology-driven Knowledge Management. - John Wiley & Sons, 2003. - ISBN 0470848677
  • Toby Segaran, Colin Evans, Jamie Taylor Programming the Semantic Web. - 2009. - ISBN 0596153813
  • Luciano Floridi Web 2.0 vs. the Semantic Web: A Philosophical Assessment / / Episteme. - 2009. - Т. 6. - № 1. - С. 25 - 37. - DOI : 10.3366/E174236000800052X - dx.doi.org/10.3366/E174236000800052X