Regresja liniowa

Metoda statystyczna

Regresja liniowa – w modelowaniu statystycznym, metody oparte na liniowych kombinacjach zmiennych i parametrów dopasowujących model do danych. Dopasowana linia lub krzywa regresji reprezentuje oszacowaną wartość oczekiwaną zmiennej przy konkretnych wartościach innej zmiennej lub zmiennych W najprostszym przypadku dopasowana jest stała lub funkcja liniowa, na przykład:

Dwuwymiarowy wykres punktowy, przedstawiający przykładowe obserwacje i dopasowaną linię trendu.
Przykład danych z modelem liniowym dopasowanym metodą najmniejszych kwadratów

Zmienna jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Zmienne nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane i objaśniające mogą być wielkościami skalarnymi lub wektorami.

Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi a niezależnymi jest przekształcenie liniowe (afiniczne) względem parametrów, reprezentowane w przypadku wielowymiarowym przez macierz.

Model regresji liniowej

edytuj

Niech dany będzie zbiór danych zaobserwowanych   Model regresji liniowej zakłada, że istnieje liniowa (afiniczna) relacja pomiędzy zmienną zależną   a wektorem   regresorów   Zależność ta jest modelowana przez uwzględnienie składnika losowego (błędu)   który jest zmienną losową. Dokładniej, model ten jest postaci

 

gdzie   oznacza transpozycję, tj.   jest iloczynem skalarnym wektorów   oraz  

Powyższe   równań można zapisać w sposób macierzowy:

 

gdzie:

 

Najczęściej wykorzystuje się do tego celu klasyczną metodę najmniejszych kwadratów i jej pochodne. Metoda ta jest najstarsza i najłatwiejsza do zastosowania, choć posiada wady (np. niewielką odporność na elementy odstające), które udało się usunąć w innych, mniej rozpropagowanych metodach. Są to odporne metody statystyczne, do których należy regresja medianowa i algorytmy z regularyzacją.

 
Kwartet Anscombe’a

Niedostateczność prostych algorytmów w ogólnym przypadku pokazuje m.in. kwartet Anscombe’a – specjalnie przygotowany zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) mimo znacząco różnego charakteru danych.

Testy oparte na modelu liniowym

edytuj

Wiele klasycznych narzędzi statystycznych opatrzonych własnymi nazwami, takich jak współczynnik korelacji   Pearsona, ANOVA czy test t Studenta jest szczególnymi przypadkami lub aspektami modelu liniowego. Dotyczy to również licznych testów nieparametrycznych, w których przypadku zamiast surowych wartości zmiennych stosuje się rangi obserwacji[1].

Historycznie, klasyczne narzędzia stanowiły proste, gotowe do użycia modele z dobrze opisanymi właściwościami. W wielu przypadkach wymagają one jedynie obliczenia kilku średnich arytmetycznych, ignorując tym samym większość informacji zawartych w danych. W ortodoksyjnym podejściu częstościowym test realizuje się następnie z reguły przez określenie prawdopodobieństwa danych przy założeniu modelu zerowego: o odpowiedniej dla sytuacji strukturze, ale zakładającego zerowe zależności. Modele zerowe dla klasycznych testów mają dobrze znane rozkłady prawdopodobieństwa, i wykonanie testu polegało na odnalezieniu odpowiedniej wartości w standardowej tabeli w podręczniku[2][3].

Prostota technik pozwoliła na ich łatwe i powszechne stosowanie w epoce niskiej dostępności i mocy komputerów. Zwyczaj ten ukrywa jednak ich strukturalną i poznawczą banalność, i zachęca do zaniedbywania surowych założeń warunkujących ich trafność. Współcześnie statystycy mogą tworzyć i stosować modele oraz testy dużo dokładniej dopasowane do konkretnych zastosowań i ograniczeń[2][3][4][5][6].

Poniższa tabela – oparta o pracę Lindeløva[7] – przedstawia równoważne klasycznym narzędziom modele liniowe, gdzie   reprezentuje zmienne typu dummy, przyjmujące wartości 1 lub 0 dla obserwacji należących (lub nie) do konkretnej grupy obserwacji,   to funkcja mapująca surowe wartości zmiennych na ich relatywne rangi (w niektórych przypadkach ze znakiem, rozróżniając wartości ujemne i dodatnie), a   to wyraz błędu.

Klasyczne testy statystyczne jako szczególne przypadki regresji liniowej
Nazwa zwyczajowa Równoważny model liniowy Opis słowny
test t Studenta dla jednej próby   Czy średnia (lub mediana) obserwacji
jest ich dobrym predyktorem?
test Wilcoxona dla jednej próby  
test t Studenta dla par obserwacji   Czy średnia (lub mediana) różnic obserwacji
jest ich dobrym predyktorem?
test Wilcoxona dla par obserwacji  
korelacja r Pearsona   Czy model liniowy
jest dobrym predyktorem obserwacji (lub ich rang)?
korelacja Spearmana  
test   Studenta dla dwóch prób   Czy średnie grup
są dobrym predyktorem obserwacji (lub ich rang)?
test Manna-Whitneya  
jednoczynnikowa ANOVA  
test Kruskala-Wallisa  
jednoczynnikowa ANCOVA   Czy średnie grup oraz ich liniowy model
są dobrym predyktorem obserwacji (lub ich rang)?
dwuczynnikowa ANOVA   Czy średnie grup oraz ich iloczynów
są dobrym predyktorem obserwacji?

Przypisy

edytuj
  1. W.J. Conover, Ronald L. Iman, Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, „The American Statistician”, 35 (3), 1981, s. 124–129, DOI10.2307/2683975, ISSN 0003-1305, JSTOR2683975 [dostęp 2019-03-29].
  2. a b William W. Rozeboom, The fallacy of the null-hypothesis significance test., „Psychological Bulletin”, 57 (5), 1960, s. 416–428, DOI10.1037/h0042040, ISSN 0033-2909 [dostęp 2019-03-29] (ang.).
  3. a b Gerd Gigerenzer, Mindless statistics, „The Journal of Socio-Economics”, 33 (5), 2004, s. 587–606, DOI10.1016/j.socec.2004.09.033 [dostęp 2019-03-29] (ang.).
  4. Andrew Gelman, Analysis of variance – why it is more important than ever, „The Annals of Statistics”, 33 (1), 2005, s. 1–53, DOI10.1214/009053604000001048, ISSN 0090-5364 [dostęp 2019-03-29] (ang.).
  5. 5: Fitting models to data, [w:] Russell A. Poldrack, Statistical Thinking for the 21st Century, 2019 [dostęp 2019-03-29] [zarchiwizowane z adresu 2019-03-29].
  6. William W. Rozeboom, Good Science Is Abductive, not Hypothetico-Deductive, [w:] Lisa L. Harlow, Stanley A. Mulaik, James H. Steiger (red.), What If There Were No Significance Tests?, 1997.
  7. Jonas Kristoffer Lindeløv, Common statistical tests are linear models (or: how to teach stats) [online], Tabela udostępniona na licencji CC-BY, lindeloev.github.io, 2019 [dostęp 2019-03-29].