Знаймо

Додати знання

приховати рекламу

Цей текст може містити помилки.

Data mining



План:


Введення

Не слід плутати з Витяг інформації.

Data Mining ( рус. видобуток даних, інтелектуальний аналіз даних, глибинний аналіз даних ) - Збірна назва, що використовується для позначення сукупності методів виявлення в даних раніше невідомих, нетривіальних, практично корисних і доступних інтерпретації знань, необхідних для прийняття рішень у різних сферах людської діяльності. Термін введений Григорієм П'ятецька-Шапіро в 1989 [1] [2] [3].

Англійське словосполучення "Data Mining" поки не має усталеного перекладу на російську мову. При передачі російською мовою використовуються наступні словосполучення [4] : просівши інформації, видобуток даних, вилучення даних, а, також, інтелектуальний аналіз даних [5] [6] [7]. Більш повним і точним є словосполучення "виявлення знань у базах даних" (knowledge discovering in databases, KDD).

Основу методів Data Mining складають всілякі методи класифікації, моделювання та прогнозування, засновані на застосуванні дерев рішень, штучних нейронних мереж, генетичних алгоритмів, еволюційного програмування, асоціативної пам'яті, нечіткої логіки. До методів Data Mining нерідко відносять статистичні методи (дескриптивний аналіз, кореляційний і регресійний аналіз, факторний аналіз, дисперсійний аналіз, компонентний аналіз, дискримінантний аналіз, аналіз часових рядів). Такі методи, однак, припускають деякі апріорні уявлення про аналізованих даних, що дещо розходиться з цілями Data Mining (виявлення раніше невідомих нетривіальних і практично корисних знань).

Одне з найважливіших призначень методів Data Mining полягає в наочному поданні результатів обчислень, що дозволяє використовувати інструментарій Data Mining людьми, які не мають спеціальної математичної підготовки. У той же час, застосування статистичних методів аналізу даних вимагає доброго володіння теорією ймовірностей та математичною статистикою.


1. Введення

Методи Data Mining (або, що те ж саме, Knowledge Discovery In Data, скорочено, KDD) лежать на стику баз даних, статистики та штучного інтелекту [8].

1.1. Історичний екскурс

Область Data Mining почалася з семінару (англ. workshop), проведеного Григорієм П'ятецька-Шапіро в 1989 році. [1]

Раніше, працюючи в компанії GTE Labs, Григорій П'ЯТЕЦЬКА-Шапіро зацікавився питанням: чи можна автоматично знаходити певні правила, щоб прискорити деякі запити до великих баз даних. Тоді ж було запропоновано два терміни - Data Mining ("здобич даних" [9]) та Knowledge Discovery In Data (який слід перекладати як "відкриття знань в базах даних").

У 1993 році вийшла перша розсилка "Knowledge Discovery Nuggets", а в 1994 році був створений один з перших сайтів по Data Mining.


1.2. Постановка завдання

Спочатку, завдання ставиться таким чином:

  • є достатньо велика база даних;
  • передбачається, що в базі даних знаходяться якісь "приховані знання".

Необхідно розробити методи виявлення знань, прихованих у великих обсягах вихідних "сирих" даних.

Що означає "приховані знання"? Це повинні бути обов'язково знання:

  • раніше не відомі - тобто такі знання, які повинні бути новими (а не підтверджують якісь раніше отримані відомості);
  • нетривіальні - тобто такі, які не можна просто так побачити (при безпосередньому візуальному аналізі даних або при обчисленні простих статистичних характеристик);
  • практично корисні - тобто такі знання, які становлять цінність для дослідника або споживача;
  • доступні для інтерпретації - тобто такі знання, які легко представити в наочній для користувача формі і легко пояснити в термінах предметної області.

Ці вимоги багато в чому визначають суть методів Data mining і те, в якому вигляді і в якому співвідношенні в технології Data mining використовуються системи керування базами даних, статистичні методи аналізу і методи штучного інтелекту.


1.2.1. Data mining і бази даних

Методи Data mining має сенс застосовувати тільки для досить великих баз даних. У кожній конкретній галузі досліджень існує свій критерій "великости" бази даних.

Розвиток технологій баз даних спочатку призвело до створення спеціалізованої мови - мови запитів до баз даних. Для реляційних баз даних - це мова SQL, який надав широкі можливості для створення, зміни та вилучення збережених даних. Потім виникла необхідність в отриманні аналітичної інформації (наприклад, інформації про діяльність підприємства за певний період), і тут виявилося, що традиційні реляційні бази даних, добре пристосовані, наприклад, для ведення оперативного обліку (на підприємстві), погано пристосовані для проведення аналізу. це призвело, в свою чергу, до створення т.зв. " сховищ даних ", сама структура яких найкращим способом відповідає проведенню всебічного математичного аналізу.


1.2.2. Data mining і статистика

В основі методів Data mining лежать математичні методи обробки даних, включаючи і статистичні методи. У промислових рішеннях, нерідко, такі методи безпосередньо включаються в пакети Data mining. Однак, слід враховувати, що часто дослідники для спрощення необгрунтовано використовують параметричні тести замість непараметричних, і по друге, результати аналізу важко інтерпретованих , Що повністю розходиться з цілями і завданнями Data mining [Джерело не вказано 136 днів] . Тим не менш, статистичні методи використовуються, але їх застосування обмежується виконанням тільки певних етапів дослідження.


1.2.3. Data mining і штучний інтелект

Знання, видобуті методами Data mining прийнято представляти у вигляді моделей. В якості таких моделей виступають:

  • асоціативні правила;
  • дерева рішень;
  • кластери;
  • математичні функції.

Методи побудови таких моделей прийнято відносити до області т.зв. " штучного інтелекту ".


2. Завдання

Завдання, які вирішуються методами Data Mining, прийнято розділяти на описові ( англ. descriptive ) І Предсказательная ( англ. predictive ).

В описових завданнях найголовніше - це дати наочне опис наявних прихованих закономірностей, в той час як в Предсказательная завданнях на першому плані стоїть питання про пророкування для тих випадків, для яких даних ще немає.

До описовим завдань відносяться:

  • пошук асоціативних правил або патернів (зразків);
  • групування об'єктів, кластерний аналіз;
  • побудова регресійної моделі.

До предсказательную завдань відносяться:


3. Алгоритми навчання

Для задач класифікації характерно " навчання з учителем ", при якому побудова (навчання) моделі проводиться за вибіркою, що містить вхідні та вихідні вектори.

Для задач кластеризації та асоціації застосовується " навчання без учителя ", при якому побудова моделі проводиться за вибіркою, в якій немає вихідного параметра. Значення вихідного параметра (" відноситься до кластеру ... "," схожий на вектор ... ") підбирається автоматично в процесі навчання.

Для задач скорочення опису характерна відсутність поділу на вхідні та вихідні вектори. Починаючи з класичних робіт К. Пірсона по методу головних компонент, основна увага приділяється апроксимації даних.


4. Етапи навчання

Виділяється типовий ряд етапів вирішення завдань методами Data Mining:

  1. Формування гіпотези;
  2. Збір даних;
  3. Підготовка даних (фільтрація);
  4. Вибір моделі;
  5. Підбір параметрів моделі та алгоритму навчання;
  6. Навчання моделі (автоматичний пошук решти параметрів моделі);
  7. Аналіз якості навчання, якщо незадовільний перехід на п. 5 або п. 4;
  8. Аналіз виявлених закономірностей, якщо незадовільний перехід на п. 1, 4 або 5.

5. Підготовка даних

Перед використанням алгоритмів Data Mining необхідно провести підготовку набору аналізованих даних. Так як ІАД може виявити лише присутні в даних закономірності, вихідні дані з однієї сторони повинні мати достатній обсяг, щоб ці закономірності в них присутні, а з іншого - бути достатньо компактними, щоб аналіз зайняв прийнятний час. Найчастіше в якості вихідних даних виступають сховища або вітрини даних. Підготовка необхідна для аналізу багатовимірних даних до кластеризації або інтелектуального аналізу даних.

Далі дані очищаються. Очищення видаляє вибірки з шумами і пропущеними даними.

Очищені дані зводяться до векторів ознак, один вектор на вибірку. Вектор ознак - це сумарна версія сирих даних вибірки. Наприклад, чорно-біле зображення особи розміром 100 100 пікселів містить 10 тис. біт сирих даних. Вони можуть бути перетворені в вектор ознак шляхом виявлення в зображенні очей і рота. У результаті відбувається зменшення об'єму даних з 10 тис. біт до списку кодів положення, значно зменшуючи обсяг аналізованих даних, а значить і час аналізу. Вибір функції буде залежати від того, що є метою аналізу; вибір "правильної" функції має основоположне значення для успішного інтелектуального аналізу даних.

Вектори ознак діляться на дві категорії - навчальний набір і тестовий набір. Навчальний набір використовується для "навчання" алгоритму Data Mining, а тестовий набір - для перевірки знайдених закономірностей.


Примітки

  1. 1 2 Див його інтерв'ю - www.kdnuggets.com / gpspubs / piatetsky-interview-computerra.pdf, дане їм журналу " Компьютерра "в 2007 році.
  2. В. А. Дюк, А. В. Флегонтов, І. К. Фоміна, Застосування технологій інтелектуального аналізу даних в природничонаукових, технічних і гуманітарних областях
  3. О. С. Коваленко, Огляд проблем і перспектив аналізу даних - digital-mag.tti.sfedu.ru/files/pdf/2_nomer/razdel_2.pdf
  4. А. А. Єжов, С. О. Шумський, Лекція: Вилучення знань за допомогою нейронних мереж - www.intuit.ru/department/expert/neurocomputing/9/
  5. Microsoft SQL Server 2008 R2: новий підхід до управління інформацією - www.cnews.ru/news/line/index.shtml?2010/04/30/389101
  6. Data Mining від Oracle: сьогодення і майбутнє - citforum.ru / database / oracle / data_mining_solutions /
  7. Степанов Р. Г. Технологія Data Mining: Інтелектуальний аналіз даних - m8.ksu.ru/EOS/dm.pdf
  8. Григорій П'ЯТЕЦЬКА-Шапіро, Data Mining і перевантаження інформацією / / Вступна стаття до книги: Аналіз даних і процесів / А.А.Барсегян, М.С.Купріянов, І.І.Холод, М.Д.Тесс, С.І. Єлізаров. З-е изд. перераб. і доп. СПб.: БХВ-Петербург, 2009. 512 с. С.13.
  9. Обговорюємо термін: data mining / Школа технічного перекладу. - www.lingvoda.ru/forum/actualthread.aspx?bid=10&tid=3001&hl=data mining

Література

  • Дюк В., Самойленко А. Data Mining: навчальний курс (+ CD). - СПб. : Изд. Пітер, 2001. - 368 с.

Цей текст може містити помилки.

Схожі роботи | скачати

Схожі роботи:
Sumitomo Metal Mining
International Data Corporation
Dynamic Data Exchange
External Data Representation
Protein Data Bank
Data Manipulation Language
© Усі права захищені
написати до нас