Корпусна лінгвістика

Корпусна лінгвістика - розділ мовознавства, що займається розробкою, створенням та використанням текстових (лінгвістичних) корпусів. Термін введений у вживання в 60-х роках XX століття у зв'язку з розвитком практики створення корпусів, яким починаючи з 80-х сприяв розвиток обчислювальної техніки.

Лінгвістичним корпусом називають сукупність текстів, зібраних відповідно до визначених принципів, розмічених за певним стандартом і забезпечених спеціалізованої пошуковою системою. Іноді корпусом ("корпус першого порядку") називають просто будь-які збори текстів, об'єднаних якимось загальним ознакою (мовою, жанром, автором, періодом створення текстів).

Доцільність створення текстових корпусів пояснюється:

  • поданням лінгвістичних даних у реальному контексті;
  • досить великий представительностью даних (при великому обсязі корпусу);
  • можливістю багаторазового використання один раз створеного корпусу для вирішення різних лінгвістичних завдань, таких, як наприклад, реалізація графематіческого і лексико-граматичного аналізу тексту та ін [1]

1. Історія

Першим великим комп'ютерним корпусом вважається Браунівського корпус (БК, англ. Brown Corpus , BC), який був створений в 1960-і роки в Університеті Брауна і містив 500 фрагментів текстів по 2 тисячі слів у кожному, які були опубліковані на англійській мові в США в 1961 році. В результаті він задав стандарт в 1 млн слововживань для створення представницьких корпусів на інших мовах. За моделлю близькою до БК у 1970-ті роки було створено частотний словник російської мови Засорина, побудований на основі корпусу текстів обсягом також в 1 мільйон слів і включав приблизно в рівній пропорції суспільно-політичні тексти, художню літературу, наукові та науково-популярні тексти з різних областей і драматургію. За аналогічної моделі був побудований і російський корпус, створений в 1980-і роки в Університеті Уппсали, Швеція.

Розмір в один мільйон слів достатній для лексикографічного опису тільки самих частотних слів, оскільки слова і граматичні конструкції середньої частоти зустрічаються по кілька разів на мільйон слів (зі статистичної точки зору мова є великим набором рідкісних подій). Так, кожне з таких буденних слів, як англ. polite (Важливий) або англ. sunshine (Сонячне світло) зустрічається в БК всього 7 разів, вираз англ. polite letter лише один раз, а такі стійкі вирази як англ. polite conversation, smile, request жодного разу.

З цих причин, а також у зв'язку із зростанням комп'ютерних потужностей, здатних працювати з великими обсягами текстів, в 1980-і роки у світі було зроблено кілька спроб створити корпусу більшого розміру. У Великобританії такими проектами були Банк Англійського (Bank of English) в Бірмінгемському Університеті та Британський Національний Корпус (British National Corpus, BNC). В СРСР таким проектом був Машинний Фонд російської мови, що створювався з ініціативи А. П. Єршова.


2. Сучасний стан

Наявність великої кількості текстів в електронній формі суттєво полегшило завдання створення великих представницьких корпусів розміром в десятки і сотні мільйонів слів, але не ліквідувало проблем: збір тисяч текстів, зняття проблем з авторськими правами, приведення всіх текстів у єдину форму, балансування корпусу за темами і жанрами віднімають багато часу. Представницькі корпусу існують (або розробляються) для німецького, польського, чеського, словенської, фінської, новогрецької, вірменського, китайського, японського, болгарського та інших мов.

Національний корпус російської мови, створюваний при РАН, містить на сьогоднішній день більше 300 млн слововживань. [2]

Поряд з представницькими корпусами, які охоплюють великий набір жанрів і функціональних стилів, в лінгвістичних дослідженнях часто використовуються і опортуністичні колекції текстів, наприклад, газети (часто Wall Street Journal і New York Times), новинні стрічки ( Рейтер), колекції художньої літератури ( Бібліотека Мошкова або Проект Гутенберг).


3. Проблеми

3.1. Проблема показності

Корпус складається з кінцевого числа текстів, але він покликаний адекватно відображати лексікограмматіческіе феномени, типові для всього обсягу текстів в відповідній мові (або підмові). Для показності важливий як розмір, так і структура корпусу. Представницький розмір залежить від завдання, оскільки він визначається тим, як багато прикладів може бути знайдено для досліджуваних феноменів. У зв'язку з тим, що зі статистичної точки зору мова містить велику кількість відносно рідкісних слів ( Закон Ципфа), для дослідження перших п'яти тисяч найбільш частотних слів (наприклад, збиток, вибачатися) вимагається корпус розміром близько 10-20 мільйонів слововживань, в той час як для опису перших двадцяти тисяч слів (невигадливий, серцебиття, роїтися) вже потрібно корпус понад сто мільйонів слововживань.


3.2. Проблема розмітки

До первинної розмітці текстів відносяться етапи, обов'язкові для кожного корпусу:

  • токенізація (розбиття на орфографічні слова)
  • лемматізація (приведення словоформ до словникової формі)
  • морфологічний аналіз

3.3. Проблема представлення результатів

У великих корпусах виникає проблема, яка раніше була неактуальною: пошук за запитом може видавати сотні і навіть тисячі результатів (контекстів вживання), які просто фізично неможливо переглянути в обмежений час. Для вирішення цієї проблеми розробляються системи, що дозволяють групувати результати пошуку і автоматично розбивати їх на підмножини (кластеризація результатів пошуку), або видають найбільш стійкі словосполучення ( колокації) зі статистичною оцінкою їх значущості.


4. Веб як корпус

4.1. Використання пошукових машин

В якості корпусу може використовуватися безліч текстів, доступних в інтернеті (тобто мільярди слововживань для основних світових мов). Для лінгвістів найпоширенішим способом роботи з Інтернетом залишається складання запитів до пошукової машини та інтерпретація результатів або за кількістю знайдених сторінок, або по перших повернутим посиланнях. В англійській мові така методологія отримала назву англ. Googleology [3], для російської більш підходящим назвою може стати Яндексологія. Необхідно відзначити, що такий підхід годиться для вирішення обмеженого класу задач, так як кошти розмітки текстів, використовувані в вебі, не описують ряд лінгвістичних особливостей тексту (вказівка наголосів, граматичних класів, кордонів словосполучень і т. д.). Крім того справа ускладнюється малою поширеністю семантичної верстки.

На практиці обмеженість такого підходу призводить до того, що перевірити, наприклад, сполучуваність двох слів простіше всього через запит виду "слово1 слово2". За отриманими результатами можна судити, наскільки поширене таке поєднання і в яких текстах воно частіше зустрічається ..


4.2. Використання веб-сторінок

Другий спосіб полягає в автоматичному витяганні великої кількості сторінок з Інтернету і їх подальшому використанні в якості звичайного корпусу, що дає можливість провести його розмітку і використовувати лінгвістичні параметри в запитах. Цей спосіб дозволяє швидко створити представницький корпус для будь-якої мови в достатній мірі представленого в Інтернеті, але його жанрове і тематичне розмаїття буде відображати інтереси користувачів Інтернету. [4]

Все більшу популярність у науковому середовищі отримує використання Вікіпедії - як корпусу текстів. [5]


4.3. Проект Татоеба

У 2006 році з'явився сайт Татоеба (Tatoeba), що дозволяє на вільній основі Додавати нові і змінювати існуючі пропозиції на різних мовах, пов'язані між собою за змістом. У його основу ліг лише англо-японський корпус, а вже зараз число мов перевищує 80, а число пропозицій - 600000 [6]. Будь-який бажаючий може додавати нові пропозиції та їх переклади, а при необхідності - безкоштовно скачати цілком або частково всі мовні корпусу.

4.4. Відкритий корпус російської мови

Інтерфейс системи розмітки Відкритого корпусу російської мови

Інтерес представляє проект відкритого корпусу російської мови, який не лише використовує опубліковані під вільними ліцензіями тексти, але й дозволяє будь-якому охочому взяти участь у лінгвістичній розмітці корпусу. Така форма краудсорсингу стала можливою завдяки розбиттю завдання розмітки на невеликі завдання, з більшістю з яких може впоратися людина без спеціальної лінгвістичної підготовки. [7] Корпус постійно поповнюється, всі тексти та програмне забезпечення, пов'язані з ним доступні під ліцензіями GNU GPL v2 і CC-BY-SA.


Примітки

  1. Довнар П.Ю., Воронцов А.В. Лінгвістичний процесор китайської мови. Особливості розробки - elib.bsu.by/bitstream/123456789/9605/1/pages from Конференція_1. 202-207pdf.pdf / / Міжнародний конгрес з інформатики: інформаційні системи і технології: матеріали міжнародного наукового конгресу 31 окт. - 3 листоп. 2011. - Мінськ: БДУ: БДУ, 2011.
  2. Статистика національного корпусу російської мови - www.ruscorpora.ru / corpora-stat.html
  3. Kilgarriff A. Googleology IS Bad Science. - www.kilgarriff.co.uk/Publications/2007-K-CL-Googleology.pdf Computational Linguistics,, 33 (1), 2007.
  4. Baroni M. and Bernardini S. (Editors). WaCky! Working papers on the Web as Corpus. - wackybook.sslmit.unibo.it Gedit, Bologna, 2006.
  5. Див роботи: Wikipedia in academic studies
  6. Список пропозицій по мовам - tatoeba.org / rus / stats / sentences_by_language
  7. Бочаров В.В., Грановський Д.В. Програмне забезпечення для колективної роботи над морфологічної розміткою корпусу - opencorpora.org/doc/articles/2011_CorpusLing.pdf / / Праці міжнародної конференції "Корпусна лінгвістика - 2011". - Санкт-Петербург: СПб.: С.-Петербурзький держ. університет, Філологічний факультет, 2011.