Знаймо

Додати знання

приховати рекламу

Цей текст може містити помилки.

URL



План:


Введення

Єдиний покажчик ресурсів ( англ. URL - Uniform Resource Locator ) - Однаковий локатор (визначник місцезнаходження) ресурсу. По- англійськи "URL" цілком вимовляється як / ɜ ː (ɹ) l / , По-русски частіше говорять [у-ер-ел], [ю-ар-ел] або [урл] ( сленг). Раніше називався Universal Resource Locator - універсальний локатор ресурсу. URL - це стандартизований спосіб запису адреси ресурсу в мережі Інтернет.


1. Історія

URL був винайдений Тімом Бернерсом-Лі в 1990 в стінах Європейської ради з ядерних досліджень ( фр. Conseil Europen pour la Recherche Nuclaire, CERN ) В Женеві, Швейцарія. URL став фундаментальною інновацією в Інтернеті. Спочатку URL призначався для позначення місць розташування ресурсів (найчастіше файлів) у Всесвітній павутині. Зараз URL застосовується для позначення адрес майже всіх ресурсів Інтернету. Стандарт URL закріплений у документі RFC 1738, колишня версія була визначена в RFC 1630. Зараз URL позиціонується як частина більш загальної системи ідентифікації ресурсів URI, сам термін URL поступово поступається місцем більш широкому терміну URI. Стандарт URL регулюється організацією IETF і її підрозділами.


2. Структура URL

Спочатку локатор URL був розроблений як система для максимально природного вказівки на місцезнаходження ресурсів в мережі. Локатор повинен був бути легко розширюваною і використовувати лише обмежений набір ASCII -символів (наприклад, пробіл ніколи не застосовується в URL). У зв'язку з цим, виникла наступна традиційна форма запису URL:

 

У цьому записі:

схема
схема звернення до ресурсу; в більшості випадків мається на увазі мережевий протокол
логін
ім'я користувача, використовуване для доступу до ресурсу
пароль
пароль зазначеного користувача
хост
повністю прописане доменне ім'я хоста в системі DNS або IP-адреса хоста у формі чотирьох десяткових чисел, розділених крапками; числа - цілі в інтервалі від 0 до 255.
порт
порт хоста для підключення
URL-шлях
уточнююча інформація про місце знаходження ресурсу; залежить від протоколу.
параметри
рядок запиту з переданими на сервер ( методом GET) параметрами. Роздільник параметрів - знак &. Приклад:
якір
ідентифікатор "якоря", що посилається на деяку частину (розділ) документа, що відкривається. З розвитком AJAX в цій частині стали розміщувати параметри для JavaScript на сторінці, і сторінка в залежності від зазначеного якоря може в браузері виглядати по-різному. Для забезпечення можливості індексування подібних сторінок пошуковими системами компанія Google запропонувала підхід, який передбачає використання знака! на початку якоря і деяку підтримку на сервері сайту [1].

На сьогоднішній день Тім Бернес-Лі визнає, що символ подвійною косою риси в структурі URL є надлишковим [2].


3. Схеми (протоколи) URL

Загальноприйняті схеми (протоколи) URL включають:

  • ftp - Протокол передачі файлів FTP
  • http - Протокол передачі гіпертексту HTTP
  • https - Спеціальна реалізація протоколу HTTP, що використовує шифрування (як правило, SSL або TLS)
  • gopher - Протокол Gopher
  • mailto - Адреса електронної пошти
  • news - Новини Usenet
  • nntp - Новини Usenet через протокол NNTP
  • irc - Протокол IRC
  • prospero - Служба каталогів Prospero Directory Service
  • telnet - Посилання на інтерактивну сесію Telnet
  • wais - База даних системи WAIS
  • xmpp - Протокол XMPP (частина Jabber)
  • file - Ім'я локального файлу
  • data - Безпосередні дані (Data: URL)

Екзотичні схеми URL:

  • afs - Глобальне ім'я файлу у файловій системі Andrew File System
  • cid - Ідентифікатор вмісту для частин MIME
  • mid - Ідентифікатор повідомлень для електронної пошти
  • mailserver - Доступ до даних з поштових серверів
  • nfs - Файл в мережевої файлової системи NFS
  • tn3270 - Емуляція інтерактивної сесії Telnet 3270
  • z39.50 - Доступ до служб ANSI Z39.50
  • skype - Протокол Skype
  • smsto - Відкриття редактора SMS в деяких мобільних телефонах
  • ed2k - Файлообмінна мережа eDonkey, побудована за принципом P2P
  • market - Android Маркет

4. Кодування URL

Поява адрес URL стало істотним нововведенням в Інтернеті. Проте з моменту його винаходу і донині стандарт URL володіє серйозним недоліком - в ньому можна використовувати тільки обмежений набір символів, навіть менший, ніж в ASCII : латинські букви, цифри і лише деякі знаки пунктуації. Якщо ми захочемо використовувати в URL символи кирилиці, або ієрогліфи, або, скажімо, специфічні символи французької мови, то потрібні нам символи повинні бути перекодовані особливим чином.

У російськомовній Вікіпедії щодня доводиться бачити приклад кодування URL, оскільки російська мова використовує символи кирилиці. Наприклад, рядок виду:

 http://ru.wikipedia.org/wiki/Микрокредит 

кодується в URL як:

 http://ru.wikipedia.org/wiki/% D0% 9C% D0% B8% D0% BA% D1% 80% D0% BE% D0% BA% D1% 80% D0% B5% D0% B4% D0 % B8% D1% 82 

Таке перетворення відбувається в два етапи: спочатку кожен символ кирилиці кодується в Юникоде ( UTF-8) у послідовність з двох байтів, а потім кожен байт цієї послідовності записується в шістнадцятковому представленні:

 М → D0 і 9C →% D0% 9C і → D0 і B8 →% D0% B8 до → D0 і BA →% D0% BA р → D1 і 80 →% D1% 80, і т. д. 

Перед кожним таким шістнадцятковим кодом байта, згідно специфікації URL [3], ставиться знак відсотка (%) - звідси навіть виник англійський термін "percent-encoding", що позначає спосіб кодування символів в URL і URI.

Інші поширені, але неприпустимі в URL символи кодуються в такій відповідності:

! " # [4] % & [4] ' * , [4] : [4] ; [4] < > ? [4] [ ] ^ ` { | } <Пробіл>
% 21 % 22 % 23 % 25 % 26 % 27 % 2a % 2c % 3a % 3b % 3c % 3e % 3f % 5b % 5d % 5e % 60 % 7b % 7c % 7d % 20 [5]

Оскільки такому перетворенню піддаються букви всіх алфавітів, окрім базової латиниці, то URL зі словами на переважній більшості мов (крім англійської, італійського, латинського) може втратити здатність сприйматися людьми.

Це все входить в протиріччя з принципом інтернаціоналізму, провозглашаемого усіма провідними організаціями Інтернету, включаючи W3C і ISOC. Цю проблему покликаний вирішити стандарт IRI ( англ. International Resource Identifier ) - Міжнародних ідентифікаторів ресурсів, в яких можна було б без проблем використовувати символи Юнікоду, і які тому не ущемляли б права інших мов. Хоча заздалегідь складно сказати, чи зможуть коли-небудь ідентифікатори IRI замінити настільки широковживаними URL (і URI в цілому).


5. Ініціатива PURL

Ще один кардинальний недолік URL полягає у відсутності гнучкості. Ресурси у Всесвітній павутині та Інтернеті переміщаються, а посилання у вигляді URL залишаються, вказуючи на вже відсутні ресурси. Це особливо болісно для електронних бібліотек, каталогів та енциклопедій. Для вирішення цієї проблеми були запропоновані постійні локатори PURL ( англ. Persistent Uniform Resource Locator ). По суті це ті ж URL, але вони вказують не на конкретне місце розташування ресурсу, а на запис в базі даних PURL, де, в свою чергу, записаний вже конкретний URL-адресу ресурсу. При зверненні до PURL сервер знаходить потрібну запис у цій базі даних і перенаправляє запит уже на конкретне місце розташування ресурсу. Якщо адресу ресурсу змінюється, то немає потреби виправляти всі незліченні посилання на нього - досить лише змінити запис у БД. На даний момент ця ідея не стандартизована і не має широкого розповсюдження.


6. Приклади URL

 http://ru.wikipedia.org/wiki/URL http://en.wikipedia.org:80/wiki/Special:Search?search=train&go=Go ftp://myname:mypass @ myhost.com: 21 / etc / motd prospero: / / myhost.dom / / pros / somename file: / / vms.myhost.edu / disk $ user/my/notes/note123.txt 

Примітки

  1. GoogleCode: AJAX Crawling - code.google.com / intl / ru-RU / web / ajaxcrawling / docs / getting-started.html (Англ.)
  2. Подвійний слеш в адресах інтернету з'явився через поспіх його творця - www.rian.ru/science/20091014/188848694.html. РИА Новости (2009-10-14 19:05). Фотогалерея - www.webcitation.org/61BpV4obP з першоджерела 25 серпня 2011.
  3. RFC 2396 частина 2. - tools.ietf.org/html/rfc2396
  4. 1 2 3 4 5 6 Символ допустимо, але за умов згадування прямим текстом несе спеціальне синтаксичне значення
  5. Слід зазначити, що MediaWiki уникає кодування пропусків як% 20, натомість він скрізь замінюється символом підкреслення "_". Багато пошуковики замінюють пробіл на символ "+".

Цей текст може містити помилки.

Схожі роботи | скачати
© Усі права захищені
написати до нас
Рейтинг@Mail.ru