「相関係数」の版間の差分
m →相関係数 |
m Bot作業依頼#Cite webの和書引数追加 |
||
(17人の利用者による、間の29版が非表示) | |||
1行目: | 1行目: | ||
[[ |
[[画像:Correlation examples2.svg|400px|thumb|[[散布図]]とその相関係数の一覧。相関は非線形性および直線関係の向きを反映するが(上段)、その関係の傾きや(中段)、非直線関係の多くの面も反映しない(下段)。中央の図の傾きは0であるが、この場合は''Y''の分散が0であるため相関係数は定義されない。]] |
||
'''相関係数'''(そうかんけいすう、{{lang-en-short|''correlation coefficient''}})とは、2つの[[データ]]または[[確率変数]]の間にある線形な関係の強弱を測る指標である{{sfn|栗林|2011|page={{google books quote|id=r5JIE8QbPbAC|page=18|18}}}}{{sfn|Drouet Mari|Kotz|2001|loc={{google books quote|id=xvG3CgAAQBAJ |page=11|2.2.1. Linear relationship}}}}。相関係数は[[無次元量]]で、−1以上1以下の[[実数]]に値をとる。相関係数が[[正の数と負の数|正]]のとき確率変数には'''正の相関'''が、負のとき確率変数には'''負の相関'''があるという。また相関係数が0のとき確率変数は'''無相関'''であるという{{sfn|稲垣|1990|p=66}}<ref>[[伏見康治]]「[[確率論及統計論]]」第III章 記述的統計学 21節 2偶然量の相関 p.146 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204</ref>。 |
|||
たとえば、[[先進諸国]]の[[失業率]]と[[実質経済成長率]]は強い負の相関関係にあり、相関係数を求めれば−1に近い数字になる。 |
|||
'''相関係数'''(そうかんけいすう、{{lang-en-short|''correlation coefficient''}})は、2つの[[確率変数]]の間にある線形な関係の強弱を測る指標である{{sfn|栗林|2011|page={{google books quote|id=r5JIE8QbPbAC|page=18|18}}}}{{sfn|Drouet Mari|Kotz|2001|loc={{google books quote|id=xvG3CgAAQBAJ|page=11|2.2.1. Linear relationship}}}}。相関係数は[[無次元量]]で、−1以上1以下の[[実数]]に値をとる。相関係数が正のとき確率変数には'''正の相関'''が、負のとき確率変数には'''負の相関'''があるという。また相関係数が0のとき確率変数は'''無相関'''であるという{{sfn|稲垣|1990|p=66}}<ref>[[伏見康治]]「[[確率論及統計論]]」第III章 記述的統計学 21節 2偶然量の相関 p.146 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204</ref> |
|||
。 |
|||
相関係数が ±1 に値をとることは、2つのデータ(確率変数)が線形の関係にあるときに限る{{sfn|稲垣|1990|loc=定理4.2.ii}}。また2つの確率変数が互いに[[独立 (確率論)|独立]]ならば相関係数は 0 となるが、逆は成り立たない。 |
|||
たとえば、[[先進諸国]]の[[失業率]]と[[実質経済成長率]]は強い負の相関関係にあり、相関係数を求めれば比較的−1に近い数字になる。 |
|||
普通、単に相関係数といえば'''[[カール・ピアソン|ピアソン]]の積率相関係数'''を指す{{sfn|中西他|2004}}。ピアソン積率相関係数の検定は偏差の[[正規分布]]を仮定する(パラメトリック)方法である<ref>{{Cite web|和書|publisher=北海道対がん協会 |author=和田恒之 |date= |url=http://www.saturingi.gr.jp/seminar/statistical/vol5.pdf |title=統計学セミナー 第5回資料 相関 (Correlation) |format=PDF |accessdate=2016-05-31}}</ref>が、他にこのような仮定を置かない[[ノンパラメトリック手法|ノンパラメトリックな方法]]として、[[スピアマンの順位相関係数]]、[[ケンドールの順位相関係数]]なども一般に用いられる<ref name="Concept2012">{{Cite book |author1=Debasis Bhattacharya (Ph. D.) |author2=Soma Roychowdhury |title=Statistics in Social Science and Agricultural Research |url=https://books.google.co.jp/books?id=UefvPxBuzVQC&pg=PA74&redir_esc=y&hl=ja|year=2012|publisher=Concept Publishing Company |isbn=978-81-8069-822-4 |page=74}}</ref><ref name="Spatz2007">{{Cite book |author=Chris Spatz |title=Basic Statistics: Tales of Distributions |url=https://books.google.co.jp/books?id=lQILp3xrrLUC&pg=PA319&redir_esc=y&hl=ja |date=2007-05-16 |publisher=Cengage Learning |isbn=0-495-38393-7 |pages=319-320}}</ref>。 |
|||
相関係数が±1に値をとるのは2つの確率変数が線形な関係にあるとき、かつそのときに限る{{sfn|稲垣|1990|loc=定理4.2.ii}}。また2つの確率変数が互いに[[独立 (確率論)|独立]]ならば相関係数は0となるが、逆は成り立たない。 |
|||
普通、単に相関係数といえば'''[[カール・ピアソン|ピアソン]]の積率相関係数'''を指す{{sfn|中西他|2004}}。ピアソン積率相関係数の検定は偏差の[[正規分布]]を仮定する(パラメトリック)方法である<ref>{{Cite web |publisher=北海道対がん協会 |author=和田恒之 |date= |url=http://www.saturingi.gr.jp/seminar/statistical/vol5.pdf |title=統計学セミナー 第5回資料 相関 (Correlation) |format=PDF |accessdate=2016-05-31}}</ref>が、他にこのような仮定を置かない[[ノンパラメトリック手法|ノンパラメトリックな方法]]として、[[スピアマンの順位相関係数]]、[[ケンドールの順位相関係数]]なども一般に用いられる。<ref name="Concept2012">{{cite book|author1=Debasis Bhattacharya (Ph. D.)|author2=Soma Roychowdhury|title=Statistics in Social Science and Agricultural Research|url=http://books.google.com/books?id=UefvPxBuzVQC&pg=PA74|year=2012|publisher=Concept Publishing Company|isbn=978-81-8069-822-4|pages=74}}</ref><ref name="Spatz2007">{{cite book|author=Chris Spatz|title=Basic Statistics: Tales of Distributions|url=http://books.google.com/books?id=lQILp3xrrLUC&pg=PA319|date=16 May 2007|publisher=Cengage Learning|isbn=0-495-38393-7|pages=319-320}}</ref> |
|||
== 定義 == |
== 定義 == |
||
=== 相関 === |
=== 相関 === |
||
日本 |
[[日本産業規格]]では、相関(そうかん:correlation)を、「二つの確率変数の分布法則の関係。多くの場合,線形関係の程度を指す。」と定義している<ref>[[JIS Z 8101]]-1 : 1999 [[統計]] − 用語と記号 − 第1部:[[確率]]及び一般統計用語 1.9 相関, [[日本規格協会]]、http://kikakurui.com/z8/Z8101-1-1999-01.html</ref>。 |
||
。 |
|||
=== 相関係数 === |
=== 相関係数 === |
||
正の[[分散 (確率論)|分散]]を持つ[[確率変数]] {{ |
正の[[分散 (確率論)|分散]]を持つ[[確率変数]] {{math2|''X'', ''Y''}} が与えられたとき、[[共分散]]を <math>\operatorname{cov} [X,Y]</math>、[[標準偏差]]を {{math2|''σ{{sub|X}}'', ''σ{{sub|Y}}''}} とおく。このとき |
||
:<math>\rho=\frac{\ |
:<math>\rho = \frac{\operatorname{cov} [X,Y]}{\sigma_X \sigma_Y}</math> |
||
を確率変数 {{mvar|X}} |
を確率変数 {{mvar|X}} と {{mvar|Y}} の'''相関係数'''という。これは[[期待値]]を {{math|''E''[…]}} で表せば |
||
:<math>\rho=\frac{E\left[\left(X-E\left[X\right]\right)\left(Y-E\left[Y\right]\right)\right]}{\sqrt{E\left[\left(X- E\left[X\right]\right)^2\right] |
:<math>\rho = \frac{E \left[ \left( X-E \left[ X \right] \right) \left( Y-E \left[ Y \right] \right) \right]}{\sqrt{E \left[ \left( X- E \left[ X \right] \right)^2 \right] E \left[ \left( Y-E \left[ Y \right] \right)^2 \right]}}</math> |
||
と書き直すこともできる。 |
と書き直すこともできる。 |
||
26行目: | 23行目: | ||
=== 標本相関係数 === |
=== 標本相関係数 === |
||
2 |
大きさの同じ2個のデータ {{math2|(''x''{{sub|1}}, ''x''{{sub|2}}, …, ''x{{sub|n}}''), (''y''{{sub|1}}, ''y''{{sub|2}}, …, ''y{{sub|n}}'')}} に対して、標本[[共分散]]を {{math|''s{{sub|xy}}''}}、[[標準偏差#標本の標準偏差|標本標準偏差]]をそれぞれ {{math2|''s{{sub|x}}'', ''s{{sub|y}}''}} とおく。このとき |
||
:<math>r:= \frac{s_{xy}}{s_x s_y} = \frac{\sum\limits_{i=1}^n \left( x_i-\overline{x} \right) \left( y_i-\overline{y} \right)}{\sqrt{\sum\limits_{i=1}^n (x_i-\overline{x})^2 \sum\limits_{i=1}^n (y_i-\overline{y})^2}}</math> |
|||
:<math> r = \frac{s_{x y}}{s_x s_y} </math> |
|||
を'''標本相関係数''' |
を'''標本相関係数''' (sample correlation coefficient) あるいは'''[[カール・ピアソン|ピアソン]]の積率相関係数'''という。ただし、{{math2|{{overline|''x''}}, {{overline|''y''}}}} はそれぞれデータ {{math2|(''x''{{sub|1}}, ''x''{{sub|2}}, …, ''x{{sub|n}}''), (''y''{{sub|1}}, ''y''{{sub|2}}, …, ''y{{sub|n}}'')}} の[[算術平均|平均値]]で、<math>\overline{x} = \frac{1}{n} \textstyle\sum\limits_{i=1}^n x_i</math>, <math>\overline{y} = \frac{1}{n} \textstyle\sum\limits_{i=1}^n y_i</math> である。 |
||
:<math>r=\frac{\displaystyle\sum_{i=1}^n\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)}{\sqrt{\displaystyle \sum_{j=1}^n(x_j-\overline{x})^2}\sqrt{\displaystyle\sum_{k=1}^n(y_k-\overline{y})^2}}</math> |
|||
と書き直すこともできる。 |
|||
相関係数は、[[幾何学]]的には次のような意味になる。 |
|||
:<math>\overrightarrow{x-\overline{x}}=\frac{1}{\sqrt{\displaystyle \sum_{j=1}^n(x_j-\overline{x})^2}}\left(\begin{array}{c}x_1-\overline{x}\\ x_2-\overline{x}\\ \vdots\\ x_n-\overline{x}\end{array}\right)</math> |
|||
と |
|||
:<math>\overrightarrow{y-\overline{y}}=\frac{1}{\sqrt{\displaystyle \sum_{k=1}^n(y_k-\overline{y})^2}}\left(\begin{array}{c}y_1-\overline{y}\\ y_2-\overline{y}\\ \vdots\\ y_n-\overline{y}\end{array}\right)</math> |
|||
の[[内積]]である。 |
|||
データ {{math2|(''x''{{sub|1}}, ''x''{{sub|2}}, …, ''x{{sub|n}}''), (''y''{{sub|1}}, ''y''{{sub|2}}, …, ''y{{sub|n}}'')}} をそれぞれ {{mvar|n}} 次の[[列ベクトル]] {{math|'''''x''''' {{=}} [''x''{{sub|1}} ''x''{{sub|2}} ... ''x''{{sub|''n''}}]{{mtop|.}}, '''''y''''' {{=}} [''y''{{sub|1}} ''y''{{sub|2}} ... ''y''{{sub|''n''}}]{{mtop|.}}}} と考えると、{{math|'''''x''''', '''''y'''''}} の[[偏差]]ベクトルはそれぞれ以下のようになる。 |
|||
データ{{math|(''x<sub>i</sub>'', ''y<sub>i</sub>'')}}が2次元[[正規分布]]からの標本のとき、標本相関係数{{mvar|r}}は母集団相関係数{{math|ρ}}の[[最尤推定量]]ではあるが、[[不偏推定量]]ではなく(絶対値で見ると)小さめに見積もりがちである{{sfn|Hedges|Olkin|1985|p={{google books quote|id=7GviBQAAQBAJ|page=225|255}}}}。また[[外れ値]]に鋭敏に反応してしまう。 |
|||
:<math>\boldsymbol{x}-\overline{x}\,\boldsymbol{1}=\begin{bmatrix} |
|||
x_1-\overline{x} \\ |
|||
x_2-\overline{x} \\ |
|||
\vdots \\ |
|||
x_n-\overline{x} |
|||
\end{bmatrix}, \; \boldsymbol{y}-\overline{y}\,\boldsymbol{1}=\begin{bmatrix} |
|||
y_1-\overline{y} \\ |
|||
y_2-\overline{y} \\ |
|||
\vdots \\ |
|||
y_n-\overline{y} |
|||
\end{bmatrix}</math> |
|||
ただし、{{math|'''1'''}} は全ての成分が1である {{mvar|n}} 次の列ベクトルで、{{math|'''1''' {{=}} [1 1 ... 1]{{mtop|.}}}} である。このとき、{{math|'''''x''''', '''''y'''''}} の[[偏差]]ベクトル {{math|'''''x''''' − {{overline|''x''}} '''1''', '''''y''''' − {{overline|''y''}} '''1'''}} の[[ベクトルのなす角|なす角]]を {{mvar|θ}} としたときの |
|||
:<math>\cos \theta =\frac{\langle \boldsymbol{x}-\overline{x}\,\boldsymbol{1},\;\boldsymbol{y}-\overline{y}\,\boldsymbol{1} \rangle}{\| \boldsymbol{x}-\overline{x}\,\boldsymbol{1} \| \| \boldsymbol{y}-\overline{y}\,\boldsymbol{1} \|}</math> |
|||
が標本相関係数 {{mvar|r}} である。ここで、{{math|{{angbr|●, ●}}}} は[[内積]]を表す。 |
|||
データ {{math|(''x''{{sub|1}}, ''x''{{sub|2}}, …, ''x{{sub|n}}''), (''y''{{sub|1}}, ''y''{{sub|2}}, ..., ''y{{sub|n}}'')}} が2次元[[正規分布]]からの標本のとき、標本相関係数 {{mvar|r}} は母集団相関係数 {{mvar|ρ}} の[[最尤推定]]量ではあるが、[[偏り#推定量の偏り|不偏推定量]]ではなく(絶対値で見ると)小さめに見積もりがちである{{sfn|Hedges|Olkin|1985|p={{google books quote|id=7GviBQAAQBAJ|page=225|255}}}}。また[[外れ値]]に大きく影響してしまう。 |
|||
=== 順位相関係数 === |
=== 順位相関係数 === |
||
{{ |
{{See|スピアマンの順位相関係数|ケンドールの順位相関係数}} |
||
== 誤解や誤用 == |
== 誤解や誤用 == |
||
{{See also|相関関係と因果関係}} |
|||
=== 相関と因果の混同 === |
|||
相関係数は、あくまでも[[確率変数]]の間にある線形な関係の尺度に過ぎない{{sfn|栗林|2011|page={{google books quote|id=r5JIE8QbPbAC|page=18|18}}}}{{sfn|Drouet Mari|Kotz|2001|loc={{google books quote|id=xvG3CgAAQBAJ|page=11|2.2.1. Linear relationship}}}}。また、[[確率変数]]間の因果関係を説明するものでもない。相関係数は[[順序尺度]]であり比[[間隔尺度|尺度]]ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。 |
相関係数は、あくまでも[[確率変数]]の間にある線形な関係の尺度に過ぎない{{sfn|栗林|2011|page={{google books quote|id=r5JIE8QbPbAC|page=18|18}}}}{{sfn|Drouet Mari|Kotz|2001|loc={{google books quote|id=xvG3CgAAQBAJ|page=11|2.2.1. Linear relationship}}}}。また、[[確率変数]]間の因果関係を説明するものでもない。相関係数は[[順序尺度]]であり比[[間隔尺度|尺度]]ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。 |
||
50行目: | 59行目: | ||
2つの変数(A,B)間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される(相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である)。 |
2つの変数(A,B)間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される(相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である)。 |
||
#AがBを発生させる |
#AがBを発生させる |
||
#BがAを発生させる |
#BがAを発生させる |
||
#第3の変数CがAとBを発生させる(この場合、AとBの間に因果関係はなく[[擬似相関]]と呼ばれる) |
#第3の変数CがAとBを発生させる(この場合、AとBの間に因果関係はなく[[擬似相関]]と呼ばれる) |
||
因果的な効果の推定ににあたっては、単に相関を見るだけでは分からない。[[ジューディア・パール]]<ref>Judea Pearl. 2000. ''Causality: Models, Reasoning, and Inference,'' Cambridge University Press.</ref>や[[ドナルド・ルービン]]<ref name=":01">{{Cite journal |last=Rubin |first=Donald |title=Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies |journal=[[Journal of Educational Psychology|J. Educ. Psychol.]] |volume=66 |issue=5 |year=1974 |pages=688-701 [p. 689] |doi=10.1037/h0037350}}</ref>などによってまとめられてきた統計的因果推論などに則った調査研究を実施する必要がある。 |
|||
=== 相関係数と回帰係数の混同 === |
|||
相関分析とは2変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し[[回帰分析]]とは、変数の間にどのような関係があるか(具体的な関数の形)についての分析であり、また説明変数によって目的変数を予測するのを目的としている。 |
相関分析とは2変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し[[回帰分析]]とは、変数の間にどのような関係があるか(具体的な関数の形)についての分析であり、また説明変数によって目的変数を予測するのを目的としている。 |
||
初学者によく見られる勘違いとして、相関係数と回帰係数が取り違えて理解されることが多い。 |
|||
また、回帰式を作ることは、あくまで予測モデルを立てることに過ぎず、回帰分析によって因果関係の推定が直接的にできるわけではない。 |
|||
=== HARKing === |
|||
{{main article|HARKing}} |
|||
また、多数のデータを比較したときに、たまたま相関係数が強く出た組み合わせの結果をもとに、事前の仮説を訂正して論文を書き上げる行為は、[[HARKing]]と呼ばれる。探索的研究としてではなく、仮説検証型の研究としてHARKingを行った論文を公表することは、偶然の結果を、あたかも強い意味がある結果であるかのように誤認させ、[[第一種過誤と第二種過誤|第一種や第二種の過誤]]をしてしまう可能性が高いため、研究の手続きとして大きな問題がある。 |
|||
== 脚注 == |
== 脚注 == |
||
{{ |
{{Reflist|2}} |
||
== 参考文献 == |
== 参考文献 == |
||
* {{Cite book|和書 |author=稲垣宣生 |year=1990 |title=数理統計学 |publisher=[[裳華房]] |isbn=4-7853-1406-0 |ref=harv}} |
|||
* {{cite book |
|||
* {{Cite book|和書 |author1=中西寛子 |author2=岩崎学 |author3=時岡規夫 |year=2004 |title=実用統計用語事典 |url={{google books|iZbhSqKrABMC|page=153|plainurl=yes}} |publisher=[[オーム社]] |isbn=4-274-06554-5 |ref={{sfnref|中西他|2004}}}} |
|||
|和書 |
|||
* {{Cite book|和書 |author1=栗原伸一 |year=2011 |title=入門統計学―検定から多変量解析・実験計画法まで |url={{google books|r5JIE8QbPbAC|page=17|plainurl=yes}} |publisher=[[オーム社]] |isbn=978-4-274-06855-3 |ref=harv}} |
|||
|last1 = 稲垣 |
|||
* {{Cite book |last1=Drouet Mari |first1=Dominique |last2=Kotz |first2=Samuel |year=2001 |title=Correlation and Dependence |url={{google books|xvG3CgAAQBAJ|plainurl=yes}} |publisher=Imperial College Press |isbn=1-86094-264-4 |mr=1835042 |ref=harv}} |
|||
|first1 = 宣生 |
|||
* {{Cite book |last1=Hedges |first1=Larry V. |last2=Olkin |first2=Ingram |year=1985 |title=Statistical Methods for Meta-Analysis |url={{google books|7GviBQAAQBAJ|plainurl=yes|page=225}} <!-- 相関係数の不偏推定量(の近似)もある --> |publisher=Academic Press |isbn=0-12-336380-2 |mr=0798597 |ref=harv}} |
|||
|year = 1990 |
|||
* {{Cite book|和書 |author=伏見康治|authorlink=伏見康治 |year=1942 |title=[[確率論及統計論]]|publisher=[[河出書房]]|isbn=9784874720127|url=http://ebsa.ism.ac.jp/ebooks/ebook/204}} |
|||
|title = 数理統計学 |
|||
* {{Cite book|和書 |author=日本数学会|authorlink=日本数学会 |year=2007 |title=数学辞典 |publisher=[[岩波書店]]|isbn=9784000803090}} |
|||
|publisher = [[裳華房]] |
|||
* [[JIS Z 8101]]-1:1999 [[統計]] − [[用語]]と[[記号]] − 第1部:[[確率]]及び一般統計用語、[[日本規格協会]]、http://kikakurui.com/z8/Z8101-1-1999-01.html |
|||
|isbn = 4-7853-1406-0 |
|||
|ref = harv |
|||
}} |
|||
* {{cite book |
|||
|和書 |
|||
|last1 = 中西 |
|||
|first1 = 寛子 |
|||
|last2 = 岩崎 |
|||
|first2 = 学 |
|||
|first3 = 時岡 |
|||
|last3 = 規夫 |
|||
|year = 2004 |
|||
|title = 実用統計用語事典 |
|||
|url = {{google books|iZbhSqKrABMC|page=153|plainurl=yes}} |
|||
|publisher = [[オーム社]] |
|||
|isbn = 4-274-06554-5 |
|||
|ref = {{sfnref|中西他|2004}} |
|||
}} |
|||
* {{cite book |
|||
|和書 |
|||
|last1 = 栗原 |
|||
|first1 = 伸一 |
|||
|year = 2011 |
|||
|title = 入門統計学―検定から多変量解析・実験計画法まで |
|||
|url = {{google books|r5JIE8QbPbAC|page=17|plainurl=yes}} |
|||
|publisher = [[オーム社]] |
|||
|isbn = 978-4-274-06855-3 |
|||
|ref = harv |
|||
}} |
|||
* {{cite book |
|||
|last1 = Drouet Mari |
|||
|first1 = Dominique |
|||
|last2 = Kotz |
|||
|first2 = Samuel |
|||
|year = 2001 |
|||
|title = Correlation and Dependence |
|||
|url = {{google books|xvG3CgAAQBAJ|plainurl=yes}} |
|||
|publisher = Imperial College Press |
|||
|isbn = 1-86094-264-4 |
|||
|mr = 1835042 |
|||
|ref = harv |
|||
}} |
|||
* {{cite book |
|||
|last1 = Hedges |
|||
|first1 = Larry V. |
|||
|last2 = Olkin |
|||
|first2 = Ingram |
|||
|year = 1985 |
|||
|title = Statistical Methods for Meta-Analysis |
|||
|url = {{google books|7GviBQAAQBAJ|plainurl=yes|page=225}} <!-- 相関係数の不偏推定量(の近似)もある --> |
|||
|publisher = Academic Press |
|||
|isbn = 0-12-336380-2 |
|||
|mr = 0798597 |
|||
|ref = harv |
|||
}} |
|||
* {{Cite book|和書|author=[[伏見康治]]|year=1942|title=[[確率論及統計論]]|publisher=[[河出書房]]|isbn=9784874720127|url= http://ebsa.ism.ac.jp/ebooks/ebook/204}} |
|||
* {{Cite book|和書|author=[[日本数学会]]|year=2007|title=数学辞典|publisher=[[岩波書店]]|isbn=9784000803090}} |
|||
* [[JIS Z 8101]]-1:1999 [[統計]] − [[用語]]と[[記号]] − 第1部:[[確率]]及び一般統計用語, [[日本規格協会]], http://kikakurui.com/z8/Z8101-1-1999-01.html |
|||
== 関連項目 == |
== 関連項目 == |
||
136行目: | 95行目: | ||
**[[相関関係と因果関係]]、[[擬似相関]]、[[錯誤相関]] |
**[[相関関係と因果関係]]、[[擬似相関]]、[[錯誤相関]] |
||
*[[自己相関]] |
*[[自己相関]] |
||
*[[HARKing]] |
|||
{{統計学}} |
{{統計学}} |
||
{{Normdaten}} |
|||
{{DEFAULTSORT:そうかんけいすう}} |
{{DEFAULTSORT:そうかんけいすう}} |
||
145行目: | 105行目: | ||
[[Category:統計学]] |
[[Category:統計学]] |
||
[[Category:数学に関する記事]] |
[[Category:数学に関する記事]] |
||
[[ru:Корреляция#Линейный коэффициент корреляции]] |
2023年11月28日 (火) 23:43時点における最新版
相関係数(そうかんけいすう、英: correlation coefficient)とは、2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標である[1][2]。相関係数は無次元量で、−1以上1以下の実数に値をとる。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるという。また相関係数が0のとき確率変数は無相関であるという[3][4]。
たとえば、先進諸国の失業率と実質経済成長率は強い負の相関関係にあり、相関係数を求めれば−1に近い数字になる。
相関係数が ±1 に値をとることは、2つのデータ(確率変数)が線形の関係にあるときに限る[5]。また2つの確率変数が互いに独立ならば相関係数は 0 となるが、逆は成り立たない。
普通、単に相関係数といえばピアソンの積率相関係数を指す[6]。ピアソン積率相関係数の検定は偏差の正規分布を仮定する(パラメトリック)方法である[7]が、他にこのような仮定を置かないノンパラメトリックな方法として、スピアマンの順位相関係数、ケンドールの順位相関係数なども一般に用いられる[8][9]。
定義
[編集]相関
[編集]日本産業規格では、相関(そうかん:correlation)を、「二つの確率変数の分布法則の関係。多くの場合,線形関係の程度を指す。」と定義している[10]。
相関係数
[編集]正の分散を持つ確率変数 X, Y が与えられたとき、共分散を 、標準偏差を σX, σY とおく。このとき
を確率変数 X と Y の相関係数という。これは期待値を E[…] で表せば
と書き直すこともできる。
母集団相関係数
[編集]この節の加筆が望まれています。 |
標本相関係数
[編集]大きさの同じ2個のデータ (x1, x2, …, xn), (y1, y2, …, yn) に対して、標本共分散を sxy、標本標準偏差をそれぞれ sx, sy とおく。このとき
を標本相関係数 (sample correlation coefficient) あるいはピアソンの積率相関係数という。ただし、x, y はそれぞれデータ (x1, x2, …, xn), (y1, y2, …, yn) の平均値で、, である。
相関係数は、幾何学的には次のような意味になる。
データ (x1, x2, …, xn), (y1, y2, …, yn) をそれぞれ n 次の列ベクトル x = [x1 x2 ... xn]⊤, y = [y1 y2 ... yn]⊤ と考えると、x, y の偏差ベクトルはそれぞれ以下のようになる。
ただし、1 は全ての成分が1である n 次の列ベクトルで、1 = [1 1 ... 1]⊤ である。このとき、x, y の偏差ベクトル x − x 1, y − y 1 のなす角を θ としたときの
が標本相関係数 r である。ここで、⟨●, ●⟩ は内積を表す。
データ (x1, x2, …, xn), (y1, y2, ..., yn) が2次元正規分布からの標本のとき、標本相関係数 r は母集団相関係数 ρ の最尤推定量ではあるが、不偏推定量ではなく(絶対値で見ると)小さめに見積もりがちである[11]。また外れ値に大きく影響してしまう。
順位相関係数
[編集]誤解や誤用
[編集]相関と因果の混同
[編集]相関係数は、あくまでも確率変数の間にある線形な関係の尺度に過ぎない[1][2]。また、確率変数間の因果関係を説明するものでもない。相関係数は順序尺度であり比尺度ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。
しばしば、相関があるという表現が、あたかも因果関係を示しているかのように誤解あるいは誤用される。
2つの変数(A,B)間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される(相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である)。
- AがBを発生させる
- BがAを発生させる
- 第3の変数CがAとBを発生させる(この場合、AとBの間に因果関係はなく擬似相関と呼ばれる)
因果的な効果の推定ににあたっては、単に相関を見るだけでは分からない。ジューディア・パール[12]やドナルド・ルービン[13]などによってまとめられてきた統計的因果推論などに則った調査研究を実施する必要がある。
相関係数と回帰係数の混同
[編集]相関分析とは2変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し回帰分析とは、変数の間にどのような関係があるか(具体的な関数の形)についての分析であり、また説明変数によって目的変数を予測するのを目的としている。 初学者によく見られる勘違いとして、相関係数と回帰係数が取り違えて理解されることが多い。 また、回帰式を作ることは、あくまで予測モデルを立てることに過ぎず、回帰分析によって因果関係の推定が直接的にできるわけではない。
HARKing
[編集]また、多数のデータを比較したときに、たまたま相関係数が強く出た組み合わせの結果をもとに、事前の仮説を訂正して論文を書き上げる行為は、HARKingと呼ばれる。探索的研究としてではなく、仮説検証型の研究としてHARKingを行った論文を公表することは、偶然の結果を、あたかも強い意味がある結果であるかのように誤認させ、第一種や第二種の過誤をしてしまう可能性が高いため、研究の手続きとして大きな問題がある。
脚注
[編集]- ^ a b 栗林 2011, p. 18.
- ^ a b Drouet Mari & Kotz 2001, 2.2.1. Linear relationship.
- ^ 稲垣 1990, p. 66.
- ^ 伏見康治「確率論及統計論」第III章 記述的統計学 21節 2偶然量の相関 p.146 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204
- ^ 稲垣 1990, 定理4.2.ii.
- ^ 中西他 2004.
- ^ 和田恒之. “統計学セミナー 第5回資料 相関 (Correlation)” (PDF). 北海道対がん協会. 2016年5月31日閲覧。
- ^ Debasis Bhattacharya (Ph. D.); Soma Roychowdhury (2012). Statistics in Social Science and Agricultural Research. Concept Publishing Company. p. 74. ISBN 978-81-8069-822-4
- ^ Chris Spatz (2007-05-16). Basic Statistics: Tales of Distributions. Cengage Learning. pp. 319-320. ISBN 0-495-38393-7
- ^ JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 1.9 相関, 日本規格協会、http://kikakurui.com/z8/Z8101-1-1999-01.html
- ^ Hedges & Olkin 1985, p. 255.
- ^ Judea Pearl. 2000. Causality: Models, Reasoning, and Inference, Cambridge University Press.
- ^ Rubin, Donald (1974). “Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies”. J. Educ. Psychol. 66 (5): 688-701 [p. 689]. doi:10.1037/h0037350.
参考文献
[編集]- 稲垣宣生『数理統計学』裳華房、1990年。ISBN 4-7853-1406-0。
- 中西寛子、岩崎学、時岡規夫『実用統計用語事典』オーム社、2004年。ISBN 4-274-06554-5 。
- 栗原伸一『入門統計学―検定から多変量解析・実験計画法まで』オーム社、2011年。ISBN 978-4-274-06855-3 。
- Drouet Mari, Dominique; Kotz, Samuel (2001). Correlation and Dependence. Imperial College Press. ISBN 1-86094-264-4. MR1835042
- Hedges, Larry V.; Olkin, Ingram (1985). Statistical Methods for Meta-Analysis. Academic Press. ISBN 0-12-336380-2. MR0798597
- 伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127 。
- 日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。
- JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語、日本規格協会、http://kikakurui.com/z8/Z8101-1-1999-01.html
関連項目
[編集]