Коефіцієнт детермінації

Коефіцієнт детермінації ( R ^ 2 - R-квадрат) - це частка дисперсії залежної змінної, яка пояснюється розглянутій моделлю залежності, тобто пояснюючими змінними. Більш точно - це одиниця мінус частка непоясненим дисперсії (дисперсії випадкової помилки моделі, або умовної по факторам дисперсії залежної змінної) в дисперсії залежної змінної. Його розглядають як універсальну міру зв'язку однієї випадкової величини від безлічі інших. В окремому випадку лінійної залежності R ^ 2 є квадратом так званого множинного коефіцієнта кореляції між залежною змінною і пояснюючими змінними. Зокрема, для моделі парної лінійної регресії коефіцієнт детермінації дорівнює квадрату звичайного коефіцієнта кореляції між y і x.


1. Визначення і формула

Істинний коефіцієнт детермінації моделі залежності випадкової величини y від факторів x визначається наступним чином:

R ^ 2 = 1 - \ frac {V (y | x)} {V (y)} = 1 - \ frac {\ sigma ^ 2} {\ sigma ^ 2_y},

де V (y | x) = \ sigma ^ 2 - Умовна (по факторам x) дисперсія залежної змінної (дисперсія випадкової помилки моделі).

У даному визначенні використовуються справжні параметри, що характеризують розподіл випадкових величин. Якщо використати вибіркову оцінку значень відповідних дисперсій, то отримаємо формулу для вибіркового коефіцієнта детермінації (який зазвичай і мається на увазі під коефіцієнтом детермінації):

R ^ 2 = 1 - \ frac {\ hat {\ sigma} ^ 2} {\ hat {\ sigma} ^ 2_y} = 1 - \ frac {ESS / n} {TSS / n} = 1 - \ frac {ESS } {TSS},

де ESS = \ sum ^ n_ {t = 1} e ^ 2_t = \ sum ^ n_ {t = 1} (y_t-\ hat y_t) ^ 2 -Сума квадратів залишків регресії, y_t, \ hat y_t - Фактичні та розрахункові значення пояснюється змінної.

TSS = \ sum ^ n_ {t = 1} (y_t-\ overline y) ^ 2 = n \ hat \ sigma ^ 2_y - Загальна сума квадратів.

\ Bar {y} = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i


У випадку лінійної регресії з константою TSS = RSS + ESS , Де RSS = \ sum ^ n_ {t = 1} (\ hat y_t-\ overline y) ^ 2 - Пояснена сума квадратів, тому отримуємо більш просте визначення в цьому випадку - коефіцієнт детермінації - це частка пояснене суми квадратів в загальній:

R ^ 2 = \ frac {RSS} {TSS}

Необхідно підкреслити, що ця формула справедлива тільки для моделі з константою, в загальному випадку необхідно використовувати попередню формулу.


1.1. Інтерпретація

1. Коефіцієнт детермінації для моделі з константою приймає значення від 0 до 1. Чим ближче значення коефіцієнта до 1, тим сильніше залежність. При оцінці регресійних моделей це інтерпретується як відповідність моделі даними. Для прийнятних моделей передбачається, що коефіцієнт детермінації повинен бути хоча б не менше 50% (в цьому випадку коефіцієнт множинної кореляції перевищує по модулю 70%). Моделі з коефіцієнтом детермінації вище 80% можна визнати достатньо хорошими (коефіцієнт кореляції перевищує 90%). Значення коефіцієнта детермінації 1 означає функціональну залежність між змінними.

2. При відсутності статистичного зв'язку між пояснюється змінної і факторами, статистика nR ^ 2 для лінійної регресії має асимптотичний розподіл \ Chi ^ 2 (k-1) , Де k-1 - Кількість факторів моделі (див. тест множників Лагранжа). У разі лінійної регресії з нормально розподіленими випадковими помилками статистика F = \ frac {R ^ 2 / (k-1)} {(1-R ^ 2) / (n-k)} має точне (для вибірок будь-якого обсягу) розподіл Фішера F (k-1, n-k) (Див. F-тест). Інформація про розподіл цих величин дозволяє перевірити статистичну значущість регресійної моделі виходячи із значення коефіцієнта детермінації. Фактично в цих тестах перевіряється гіпотеза про рівність істинного коефіцієнта детермінації нулю.


2. Недолік R ^ 2 і альтернативні показники

Основна проблема застосування (вибіркового) R ^ 2 полягає в тому, що його значення збільшується (не зменшується) від додавання в модель нових змінних, навіть якщо ці змінні ніякого відношення до що пояснюється змінної не мають! Тому порівняння моделей з різною кількістю факторів за допомогою коефіцієнта детермінації, взагалі кажучи, некоректно. Для цих цілей можна використовувати альтернативні показники.


2.1. Скоригований (adjusted) R ^ 2

Для того, щоб була можливість порівнювати моделі з різним числом факторів так, щоб число регрессоров (факторів) не впливало на статистику R ^ 2 зазвичай використовується скоригований коефіцієнт детермінації, в якому використовуються незміщені оцінки дисперсій:

R_ {adj} ^ 2 = 1 - \ frac {s ^ 2} {s ^ 2_y} = 1 - \ frac {ESS / (nk)} {TSS / (n-1)} = 1 - (1 - R ^ 2) {(n-1) \ over (nk)} \ leqslant R ^ 2

який дає штраф за додатково включені фактори, де n - кількість спостережень, а k - кількість параметрів.

Даний показник завжди менше одиниці, але теоретично може бути і менше нуля (тільки при дуже маленькому значенні звичайного коефіцієнта детермінації та великій кількості факторів). Тому втрачається інтерпретація показника як "частки". Тим не менш, застосування показника в порівнянні цілком обгрунтовано.

Для моделей з однаковою залежної змінної і однаковим об'ємом вибірки порівняння моделей за допомогою скоригованого коефіцієнта детермінації еквівалентно їх порівнянні з допомогою залишкової дисперсії s ^ 2 = ESS / (n-k) або стандартної помилки моделі s . Різниця тільки в тому, що останні критерії чим менше, тим краще.


2.2. Інформаційні критерії

AIC - інформаційний критерій Акаіке - застосовується виключно для порівняння моделей. Чим менше значення тим краще. Часто використовується для порівняння моделей часових рядів з різною кількістю лагів.
AIC = {2k \ over n} + \ ln {ESS \ over n} , Де k - кількість параметрів моделі.
BIC або SC - байєсовський інформаційний критерій Шварца - використовується і інтерпретується аналогічно AIC.
BIC = {k \ ln {n} \ over n} + \ ln {ESS \ over n} . Дає більший штраф за включення зайвих лагів в модель, ніж AIC.


2.3. R ^ 2 -Узагальнений (extended)

У разі відсутності в лінійної множинної МНК регресії константи властивості коефіцієнта детермінації можуть порушуватися для конкретної реалізації. Тому моделі регресії з вільним членом і без нього не можна порівнювати за критерієм R ^ 2 . Ця проблема вирішується за допомогою побудови узагальненого коефіцієнта детермінації R_ {extended} ^ 2 , Який збігається з вихідним для випадку МНК регресії з вільним членом, і для якого виконуються чотири властивості перераховані вище. Суть цього методу полягає розгляді проекції одиничного вектора на площину пояснюють змінних.

Для випадку регресії без вільного члена:
R_ {extended} ^ 2 = 1 - {Y '* (IP (X)) * Y \ over Y' * (I-\ pi (X)) * Y} ,
де X - матриця nxk значень факторів, P (X) = X * (X '* X) ^ {-1} * X' - Проектор на площину X, \ Pi (X) = {P (X) * i_n * i_n '* P (X) \ over i_n' * P (X) * i_n} , Де i_n - Одиничний вектор nx1.

R_ {extended} ^ 2 з умовою невеликої модифікації, також підходить для порівняння між собою регресій побудованих за допомогою: МНК, узагальненого методу найменших квадратів (ОМНК), умовного методу найменших квадратів (УМНК), узагальнено-умовного методу найменших квадратів (ОУМНК).


3. Зауваження

Високі значення коефіцієнта детермінації, взагалі кажучи, не свідчать про наявність причинно-наслідкового залежності між змінними (також як і у випадку звичайного коефіцієнта кореляції). Наприклад, якщо яка пояснюється змінна і фактори, насправді не пов'язані з пояснюється зміною, мають зростаючу динаміку, то коефіцієнт детермінації буде достатньо високий. Тому логічна і смислова адекватність моделі мають першорядну важливість. Крім того, необхідно використовувати критерії для всебічного аналізу якості моделі.


Примітки