コンテンツにスキップ

「要約統計量」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
新規作成(会話 | 投稿記録)
m編集の要約なし
42d8929(会話 | 投稿記録)
m 英語テンプレート
タグ: 2017年版ソースエディター
1行目: 1行目:
'''要約統計量'''(ようやくとうけいりょう)とは、[[標本 (統計学)|標本]]の[[分布]]の特徴を代表的に(要約して)表す[[統計学]]上の値であり、[[統計量]]の一種。'''記述統計量'''(descriptive statistics value)、'''基本統計量'''、'''代表値'''(representative value)ともいう{{sfn|西岡|loc=p.1}}
'''要約統計量'''(ようやくとうけいりょう)とは、[[標本 (統計学)|標本]]の[[分布]]の特徴を代表的に(要約して)表す[[統計学]]上の値であり、[[統計量]]の一種。'''記述統計量'''({{lang-en-short|descriptive statistics value}})、'''基本統計量'''、'''代表値'''({{lang-en-short|representative value}})ともいう{{sfn|西岡|loc=p.1}}
{{sfn|伏見|loc=第III章 記述統計量 13節 確率分布、統計分布 p.110}}。
{{sfn|伏見|loc=第III章 記述統計量 13節 確率分布、統計分布 p.110}}。


36行目: 36行目:
以下、昇順に[[ソート]]された ''N'' 個のデータ <math>x_1 \le x_2 \le \dots \le x_N</math> に対する統計量([[順序統計量]])を考える。
以下、昇順に[[ソート]]された ''N'' 個のデータ <math>x_1 \le x_2 \le \dots \le x_N</math> に対する統計量([[順序統計量]])を考える。
=== 中央値===
=== 中央値===
メジアン、メディアン (median) ともいう。データの大きさに関してちょうど中央に当たるデータ ''x''<sub>(''N'' + 1) / 2</sub> 。ただし、整数でない[[添字記法|添数]]に対する中央値は[[線形補間]]によって定義する(つまり ''N'' が偶数のときは ''x''<sub>''N'' / 2</sub> と ''x''<sub>''N'' / 2 + 1</sub> の平均とする)。
メジアン、メディアン ({{lang-en-short|median}}) ともいう。データの大きさに関してちょうど中央に当たるデータ ''x''<sub>(''N'' + 1) / 2</sub> 。ただし、整数でない[[添字記法|添数]]に対する中央値は[[線形補間]]によって定義する(つまり ''N'' が偶数のときは ''x''<sub>''N'' / 2</sub> と ''x''<sub>''N'' / 2 + 1</sub> の平均とする)。
=== 刈込平均({{仮リンク|トリム平均|en|trimmed mean}})===
=== 刈込平均({{仮リンク|トリム平均|en|trimmed mean}})===
最大値、最小値を除外した平均。除外する数を増やして行くと、最後は中央値になる。そのため、中央値は刈込平均の一つである<ref>西岡康夫,数学チュートリアル やさしく語る 確率統計,オーム社, p.5, p.52013, ISBN 9784274214073</ref>。
最大値、最小値を除外した平均。除外する数を増やして行くと、最後は中央値になる。そのため、中央値は刈込平均の一つである<ref>西岡康夫,数学チュートリアル やさしく語る 確率統計,オーム社, p.5, p.52013, ISBN 9784274214073</ref>。
47行目: 47行目:
これらの統計量を視覚化するために、[[箱ひげ図]]を用いる。
これらの統計量を視覚化するために、[[箱ひげ図]]を用いる。
====中点値 ====
====中点値 ====
最大値と最小値を足して2で割ったものを中点値(mid-range)とよび、代表値として用いることがある{{sfn|JIS Z 8101-1 : 1999|loc=2.16 中点値}}。
最大値と最小値を足して2で割ったものを中点値({{lang-en-short|mid-range}})とよび、代表値として用いることがある{{sfn|JIS Z 8101-1 : 1999|loc=2.16 中点値}}。


====範囲====
====範囲====
最大値と最小値の差を範囲(range)とよび、代表値として用いることがある{{sfn|JIS Z 8101-1 : 1999|loc=2.17 範囲}}。記号はRを用いる。
最大値と最小値の差を範囲({{lang-en-short|range}})とよび、代表値として用いることがある{{sfn|JIS Z 8101-1 : 1999|loc=2.17 範囲}}。記号はRを用いる。


==度数から求められる要約統計量==
==度数から求められる要約統計量==
===[[最頻値]]===
===[[最頻値]]===
モード (mode)、並み数 ともいう。データのうち、[[度数分布]]において最も高い度数を示す値、つまり最も多く現れているデータの値。
モード ({{lang-en-short|mode}})、並み数 ともいう。データのうち、[[度数分布]]において最も高い度数を示す値、つまり最も多く現れているデータの値。


==脚注==
==脚注==

2017年7月18日 (火) 19:19時点における版

要約統計量(ようやくとうけいりょう)とは、標本分布の特徴を代表的に(要約して)表す統計学上の値であり、統計量の一種。記述統計量(: descriptive statistics value)、基本統計量代表値(: representative value)ともいう[1] [2]

正規分布の場合は、平均と、分散または標準偏差で分布を記述できる。正規分布からのずれを知るためには、尖度歪度などの高次モーメントから求められる統計量を用いる。

正規分布から著しく外れた場合には、より頑健な中央値四分位点最大値・最小値最頻値が用いられる。「頑健」とは分布の非対称性や外れ値などの影響を受けにくいことを意味する統計用語である。例えば、労働者一人あたりの年収を例に採れば、最も収入が少なくても0未満にはならないのに対し、収入が多いほうでは数十億円という年収を稼ぐ少数者があり得る。この場合の分布は、少数者が上側にいることによって、上側に極端に尾を引いた非対称な分布となる。平均値はこれらの極端な高値の影響を受け、分布の代表値として適切でないものとなってしまう。中央値や最頻値では、いかに飛び抜けた値であっても1例としてしか扱われないので、より大多数の実感に近い値を示すことができる。

モーメントから求められる要約統計量

N 個のデータ に対する統計量を考える。まず、平均値 と、平均値まわりの m 次中央モーメント[3]

で定義する。

平均

原点まわりの1次モーメント 。和を個数で割ったもの。

分散、標準偏差

2次中央モーメントから求められる統計量。分布の広がりを表す。

分散:  
標準偏差:

歪度

3次中央モーメントから求められる統計量。分布の左右非対称の度合いを表す。

尖度

4次中央モーメントから求められる統計量。分布の峰の鋭さ(裾野の広さ)を表す。

ただし、3 を引かない定義もある。

順序から求められる要約統計量

以下、昇順にソートされた N 個のデータ に対する統計量(順序統計量)を考える。

中央値

メジアン、メディアン (: median) ともいう。データの大きさに関してちょうど中央に当たるデータ x(N + 1) / 2 。ただし、整数でない添数に対する中央値は線形補間によって定義する(つまり N が偶数のときは xN / 2xN / 2 + 1 の平均とする)。

刈込平均(トリム平均英語版

最大値、最小値を除外した平均。除外する数を増やして行くと、最後は中央値になる。そのため、中央値は刈込平均の一つである[4]

四分位点

集団を値の大きさで4等分するとき、その境界となる値。x(N + 3) / 4 を第1四分位点、x(3N + 1) / 4 を第3四分位点という。x(2N + 2) / 4 、つまり第2四分位点は中央値である。

最小値・最大値

集団に含まれる最も小さい値 x1 と、最も大きい値 xN

これらの統計量を視覚化するために、箱ひげ図を用いる。

中点値

最大値と最小値を足して2で割ったものを中点値(: mid-range)とよび、代表値として用いることがある[5]

範囲

最大値と最小値の差を範囲(: range)とよび、代表値として用いることがある[6]。記号はRを用いる。

度数から求められる要約統計量

モード (: mode)、並み数 ともいう。データのうち、度数分布において最も高い度数を示す値、つまり最も多く現れているデータの値。

脚注

  1. ^ 西岡, p.1.
  2. ^ 伏見, 第III章 記述統計量 13節 確率分布、統計分布 p.110.
  3. ^ 用語「m 次中央モーメント」は、竹内啓(編集委員代表)『統計学辞典』東洋経済新報社, 1989 による。
  4. ^ 西岡康夫,数学チュートリアル やさしく語る 確率統計,オーム社, p.5, p.52013, ISBN 9784274214073
  5. ^ JIS Z 8101-1 : 1999, 2.16 中点値.
  6. ^ JIS Z 8101-1 : 1999, 2.17 範囲.

参考文献

  • 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。ISBN 9784274214073 
  • 日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090 
  • JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (1999), http://kikakurui.com/z8/Z8101-1-1999-01.html 
  • 伏見康治確率論及統計論河出書房、1942年。ISBN 9784874720127http://ebsa.ism.ac.jp/ebooks/ebook/204 
  • 竹内啓(編集委員代表)『統計学辞典』東洋経済新報社、1989年。ISBN 9784492010389 

関連項目