コンテンツにスキップ

「相関係数」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
編集の要約なし
編集の要約なし
1行目: 1行目:
[[画像:Correlation examples2.svg|400px|thumb|[[散布図]]とその相関係数の一覧。相関は非線形性および直線関係の向きを反映するが(上段)、その関係の傾きや(中段)、非直線関係の多くの面も反映しない(下段)。中央の図の傾きは0であるが、この場合は''Y''の分散が0であるため相関係数は定義されない。]]
[[画像:Correlation examples2.svg|400px|thumb|[[散布図]]とその相関係数の一覧。相関は非線形性および直線関係の向きを反映するが(上段)、その関係の傾きや(中段)、非直線関係の多くの面も反映しない(下段)。中央の図の傾きは0であるが、この場合は''Y''の分散が0であるため相関係数は定義されない。]]
'''相関係数'''(そうかんけいすう、{{lang-en-short|''correlation coefficient''}})とは、2つの[[確率変数]]の間にある線形な関係の強弱を測る指標である{{sfn|栗林|2011|page={{google books quote|id=r5JIE8QbPbAC|page=18|18}}}}{{sfn|Drouet Mari|Kotz|2001|loc={{google books quote|id=xvG3CgAAQBAJ|page=11|2.2.1. Linear relationship}}}}。相関係数は[[無次元量]]で、&minus;1以上1以下の[[実数]]に値をとる。相関係数が正のとき確率変数には'''正の相関'''が、負のとき確率変数には'''負の相関'''があるという。また相関係数が0のとき確率変数は'''無相関'''であるという{{sfn|稲垣|1990|p=66}}<ref>[[伏見康治]]「[[確率論及統計論]]」第III章 記述的統計学 21節 2偶然量の相関 p.146 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204</ref>
'''相関係数'''(そうかんけいすう、{{lang-en-short|''correlation coefficient''}})とは、2つの[[データ]]または[[確率変数]]の間にある線形な関係の強弱を測る指標である{{sfn|栗林|2011|page={{google books quote|id=r5JIE8QbPbAC|page=18|18}}}}{{sfn|Drouet Mari|Kotz|2001|loc={{google books quote|id=xvG3CgAAQBAJ |page=11|2.2.1. Linear relationship}}}}。相関係数は[[無次元量]]で、&minus;1以上1以下の[[実数]]に値をとる。相関係数が正のとき確率変数には'''正の相関'''が、負のとき確率変数には'''負の相関'''があるという。また相関係数が0のとき確率変数は'''無相関'''であるという{{sfn|稲垣|1990|p=66}}<ref>[[伏見康治]]「[[確率論及統計論]]」第III章 記述的統計学 21節 2偶然量の相関 p.146 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204</ref>


たとえば、[[先進諸国]]の[[失業率]]と[[実質経済成長率]]は強い正の相関関係にあり、相関数を求めれば比較的&minus;1に近い数字になる。
たとえば、[[先進諸国]]の[[失業率]]と[[実質経済成長率]]は強い正の相関関係にあり、相関数を求めれば比較的&minus;1に近い数字になる。


相関係数が&plusmn;1に値をとるは2つの確率変数が線形関係にあるとき、かつそのときに限る{{sfn|稲垣|1990|loc=定理4.2.ii}}。また2つの確率変数が互いに[[独立 (確率論)|独立]]ならば相関係数は0となるが、逆は成り立たない。
相関係数が ±1 に値をとること2つのデータ(確率変数が線形関係にあるとき、かつそのときに限る{{sfn|稲垣|1990|loc=定理4.2.ii}}。また2つの確率変数が互いに[[独立 (確率論)|独立]]ならば相関係数は 0 となるが、逆は成り立たない。


普通、単に相関係数といえば'''[[カール・ピアソン|ピアソン]]の積率相関係数'''を指す{{sfn|中西他|2004}}。ピアソン積率相関係数の検定は偏差の[[正規分布]]を仮定する(パラメトリック)方法である<ref>{{Cite web |publisher=北海道対がん協会 |author=和田恒之 |date= |url=http://www.saturingi.gr.jp/seminar/statistical/vol5.pdf |title=統計学セミナー 第5回資料 相関 (Correlation) |format=PDF |accessdate=2016-05-31}}</ref>が、他にこのような仮定を置かない[[ノンパラメトリック手法|ノンパラメトリックな方法]]として、[[スピアマンの順位相関係数]]、[[ケンドールの順位相関係数]]なども一般に用いられる<ref name="Concept2012">{{cite book|author1=Debasis Bhattacharya (Ph. D.)|author2=Soma Roychowdhury|title=Statistics in Social Science and Agricultural Research|url=http://books.google.com/books?id=UefvPxBuzVQC&pg=PA74|year=2012|publisher=Concept Publishing Company|isbn=978-81-8069-822-4|pages=74}}</ref><ref name="Spatz2007">{{cite book|author=Chris Spatz|title=Basic Statistics: Tales of Distributions|url=http://books.google.com/books?id=lQILp3xrrLUC&pg=PA319|date=16 May 2007|publisher=Cengage Learning|isbn=0-495-38393-7|pages=319-320}}</ref>
普通、単に相関係数といえば'''[[カール・ピアソン|ピアソン]]の積率相関係数'''を指す{{sfn|中西他|2004}}。ピアソン積率相関係数の検定は偏差の[[正規分布]]を仮定する(パラメトリック)方法である<ref>{{Cite web |publisher=北海道対がん協会 |author=和田恒之 |date= |url=http://www.saturingi.gr.jp/seminar/statistical/vol5.pdf |title=統計学セミナー 第5回資料 相関 (Correlation) |format=PDF |accessdate=2016-05-31}}</ref>が、他にこのような仮定を置かない[[ノンパラメトリック手法|ノンパラメトリックな方法]]として、[[スピアマンの順位相関係数]]、[[ケンドールの順位相関係数]]なども一般に用いられる<ref name="Concept2012">{{Cite book |author1=Debasis Bhattacharya (Ph. D.) |author2=Soma Roychowdhury |title=Statistics in Social Science and Agricultural Research |url=http://books.google.com/books?id=UefvPxBuzVQC&pg=PA74|year=2012|publisher=Concept Publishing Company |isbn=978-81-8069-822-4 |page=74}}</ref><ref name="Spatz2007">{{Cite book |author=Chris Spatz |title=Basic Statistics: Tales of Distributions |url=http://books.google.com/books?id=lQILp3xrrLUC&pg=PA319 |date=2007-05-16 |publisher=Cengage Learning |isbn=0-495-38393-7 |pages=319-320}}</ref>


== 定義 ==
== 定義 ==
=== 相関 ===
=== 相関 ===
[[日本産業規格]]では、相関(そうかん:correlation)を、「二つの確率変数の分布法則の関係。多くの場合,線形関係の程度を指す。」と定義している<ref>[[JIS Z 8101]]-1 : 1999 [[統計]] − 用語と記号 − 第1部:[[確率]]及び一般統計用語 1.9 相関, [[日本規格協会]], http://kikakurui.com/z8/Z8101-1-1999-01.html</ref>
[[日本産業規格]]では、相関(そうかん:correlation)を、「二つの確率変数の分布法則の関係。多くの場合,線形関係の程度を指す。」と定義している<ref>[[JIS Z 8101]]-1 : 1999 [[統計]] − 用語と記号 − 第1部:[[確率]]及び一般統計用語 1.9 相関, [[日本規格協会]]http://kikakurui.com/z8/Z8101-1-1999-01.html</ref>


=== 相関係数 ===
=== 相関係数 ===
51行目: 49行目:


== 誤解や誤用 ==
== 誤解や誤用 ==
: ''別記事 [[相関関係と因果関係]] も参照''
{{See also|相関関係と因果関係}}
相関係数は、あくまでも[[確率変数]]の間にある線形な関係の尺度に過ぎない{{sfn|栗林|2011|page={{google books quote|id=r5JIE8QbPbAC|page=18|18}}}}{{sfn|Drouet Mari|Kotz|2001|loc={{google books quote|id=xvG3CgAAQBAJ|page=11|2.2.1. Linear relationship}}}}。また、[[確率変数]]間の因果関係を説明するものでもない。相関係数は[[順序尺度]]であり比[[間隔尺度|尺度]]ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。
相関係数は、あくまでも[[確率変数]]の間にある線形な関係の尺度に過ぎない{{sfn|栗林|2011|page={{google books quote|id=r5JIE8QbPbAC|page=18|18}}}}{{sfn|Drouet Mari|Kotz|2001|loc={{google books quote|id=xvG3CgAAQBAJ|page=11|2.2.1. Linear relationship}}}}。また、[[確率変数]]間の因果関係を説明するものでもない。相関係数は[[順序尺度]]であり比[[間隔尺度|尺度]]ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。


57行目: 55行目:


2つの変数(A,B)間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される(相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である)。
2つの変数(A,B)間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される(相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である)。

#AがBを発生させる
#AがBを発生させる
#BがAを発生させる
#BがAを発生させる
#第3の変数CがAとBを発生させる(この場合、AとBの間に因果関係はなく[[擬似相関]]と呼ばれる)
#第3の変数CがAとBを発生させる(この場合、AとBの間に因果関係はなく[[擬似相関]]と呼ばれる)

相関分析とは2変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し[[回帰分析]]とは、変数の間にどのような関係があるか(具体的な関数の形)についての分析であり、また説明変数によって目的変数を予測するのを目的としている。
相関分析とは2変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し[[回帰分析]]とは、変数の間にどのような関係があるか(具体的な関数の形)についての分析であり、また説明変数によって目的変数を予測するのを目的としている。


== 脚注 ==
== 脚注 ==
{{reflist|2}}
{{Reflist|2}}


== 参考文献 ==
== 参考文献 ==
88行目: 84行目:


{{統計学}}
{{統計学}}

{{DEFAULTSORT:そうかんけいすう}}
{{DEFAULTSORT:そうかんけいすう}}


94行目: 89行目:
[[Category:統計学]]
[[Category:統計学]]
[[Category:数学に関する記事]]
[[Category:数学に関する記事]]

[[ru:Корреляция#Линейный коэффициент корреляции]]

2021年3月8日 (月) 01:29時点における版

散布図とその相関係数の一覧。相関は非線形性および直線関係の向きを反映するが(上段)、その関係の傾きや(中段)、非直線関係の多くの面も反映しない(下段)。中央の図の傾きは0であるが、この場合はYの分散が0であるため相関係数は定義されない。

相関係数(そうかんけいすう、: correlation coefficient)とは、2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標である[1][2]。相関係数は無次元量で、−1以上1以下の実数に値をとる。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるという。また相関係数が0のとき確率変数は無相関であるという[3][4]

たとえば、先進諸国失業率実質経済成長率は強い正の相関関係にあり、相関数を求めれば比較的−1に近い数字になる。

相関係数が ±1 に値をとることは、2つのデータ(確率変数)が線形の関係にあるとき、かつそのときに限る[5]。また2つの確率変数が互いに独立ならば相関係数は 0 となるが、逆は成り立たない。

普通、単に相関係数といえばピアソンの積率相関係数を指す[6]。ピアソン積率相関係数の検定は偏差の正規分布を仮定する(パラメトリック)方法である[7]が、他にこのような仮定を置かないノンパラメトリックな方法として、スピアマンの順位相関係数ケンドールの順位相関係数なども一般に用いられる[8][9]

定義

相関

日本産業規格では、相関(そうかん:correlation)を、「二つの確率変数の分布法則の関係。多くの場合,線形関係の程度を指す。」と定義している[10]

相関係数

正の分散を持つ確率変数 X, Y が与えられたとき、共分散標準偏差σX, σY とおく。このとき

を確率変数 XY相関係数という。これは期待値E[…] で表せば

と書き直すこともできる。

母集団相関係数

標本相関係数

2個のデータ , が与えられたとき、標本共分散sx,y標本標準偏差sx, sy とおく。このとき

標本相関係数 (sample correlation coefficient) あるいはピアソンの積率相関係数という。これはデータ , 平均値をそれぞれ , で表すと

に等しくなる。

これは、幾何学的には、偏差ベクトル

のなす角を θ としたときの

に等しい。ここで 内積を表す。

データ (xi, yi) が2次元正規分布からの標本のとき、標本相関係数 r は母集団相関係数 ρ最尤推定量ではあるが、不偏推定量ではなく(絶対値で見ると)小さめに見積もりがちである[11]。また外れ値に大きく影響してしまう。

順位相関係数

誤解や誤用

相関係数は、あくまでも確率変数の間にある線形な関係の尺度に過ぎない[1][2]。また、確率変数間の因果関係を説明するものでもない。相関係数は順序尺度であり比尺度ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。

しばしば、相関があるという表現が、あたかも因果関係を示しているかのように誤解あるいは誤用される。

2つの変数(A,B)間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される(相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である)。

  1. AがBを発生させる
  2. BがAを発生させる
  3. 第3の変数CがAとBを発生させる(この場合、AとBの間に因果関係はなく擬似相関と呼ばれる)

相関分析とは2変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し回帰分析とは、変数の間にどのような関係があるか(具体的な関数の形)についての分析であり、また説明変数によって目的変数を予測するのを目的としている。

脚注

  1. ^ a b 栗林 2011, p. 18.
  2. ^ a b Drouet Mari & Kotz 2001, 2.2.1. Linear relationship.
  3. ^ 稲垣 1990, p. 66.
  4. ^ 伏見康治確率論及統計論」第III章 記述的統計学 21節 2偶然量の相関 p.146 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204
  5. ^ 稲垣 1990, 定理4.2.ii.
  6. ^ 中西他 2004.
  7. ^ 和田恒之. “統計学セミナー 第5回資料 相関 (Correlation)” (PDF). 北海道対がん協会. 2016年5月31日閲覧。
  8. ^ Debasis Bhattacharya (Ph. D.); Soma Roychowdhury (2012). Statistics in Social Science and Agricultural Research. Concept Publishing Company. p. 74. ISBN 978-81-8069-822-4. http://books.google.com/books?id=UefvPxBuzVQC&pg=PA74 
  9. ^ Chris Spatz (2007-05-16). Basic Statistics: Tales of Distributions. Cengage Learning. pp. 319-320. ISBN 0-495-38393-7. http://books.google.com/books?id=lQILp3xrrLUC&pg=PA319 
  10. ^ JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 1.9 相関, 日本規格協会http://kikakurui.com/z8/Z8101-1-1999-01.html
  11. ^ Hedges & Olkin 1985, p. 255.

参考文献

関連項目