コンテンツにスキップ

「要約統計量」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
m Bot作業依頼#Cite webの和書引数追加
編集の要約なし
 
1行目: 1行目:
'''要約統計'''(ようやくとうけい、{{Lang-en-short|summary statistic}})あるいは、'''記述統計'''({{Lang-en-short|descriptive statistic}})とは、[[標本 (統計学)|標本]]の[[分布]]の特徴を定量的に記述し[[要約]]する[[統計学]]上の値であり、[[統計量]]の一種である。'''基本統計'''({{Lang-en-short|basic statistic}})または'''代表値'''({{lang-en-short|representative value}})とも呼ばれることもある{{sfn|西岡|loc=p.1}}{{sfn|伏見|loc=第III章 記述統計量 13節 確率分布、統計分布 p.110}}。
'''要約統計'''(ようやくとうけい、{{Lang-en-short|summary statistic}})あるいは、'''記述統計'''({{Lang-en-short|descriptive statistic}})とは、[[標本 (統計学)|標本]]の分布の特徴を定量的に記述し要約する[[統計学]]上の値であり、[[統計量]]の一種である。'''基本統計'''({{Lang-en-short|basic statistic}})または'''代表値'''({{lang-en-short|representative value}})とも呼ばれることもある{{sfn|西岡|loc=p.1}}{{sfn|伏見|loc=第III章 記述統計量 13節 確率分布、統計分布 p.110}}。


== 概要 ==
== 概要 ==
[[記述統計学]]({{Lang-en-short|descriptive statistics}})は、こうした統計量を用いて分析する学問領域である。記述統計学は、データを用いてデータの[[標本 (統計学)|標本]]が表すと考えられる[[母集団]]について知るのではなく、標本を要約することを目的としている点で、[[推計統計学]]({{Lang-en-short|inferential statistics, or inductive statistics}})と区別される<ref name=":0">{{Citation|title=Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing|date=2017|url=https://doi.org/10.4135/9781506304144.n6|work=Interpreting and Using Statistics in Psychological Research|pages=145–183|place=2455 Teller Road, Thousand Oaks California 91320|publisher=SAGE Publications, Inc|doi=10.4135/9781506304144.n6|isbn=978-1-5063-0416-8|access-date=2021-06-01}}</ref>。つまり、記述統計は推計統計と異なり、[[確率論]]に基づいて発展したものではなく、[[ノンパラメトリック統計学|ノンパラメトリックな統計]]であることが多い<ref>{{cite book |last=Dodge |first=Y. |year=2003 |title=The Oxford Dictionary of Statistical Terms |publisher=OUP |isbn=0-19-850994-4 |url-access=registration |url=https://archive.org/details/oxforddictionary0000unse }}</ref>。
[[記述統計学]]({{Lang-en-short|descriptive statistics}})は、こうした統計量を用いて分析する学問領域である。記述統計学は、データを用いてデータの[[標本 (統計学)|標本]]が表すと考えられる[[母集団]]について知るのではなく、標本を要約することを目的としている点で、[[推計統計学]]({{Lang-en-short|inferential statistics, or inductive statistics}})と区別される<ref name=":0">{{Citation|title=Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing|date=2017|url=https://doi.org/10.4135/9781506304144.n6|work=Interpreting and Using Statistics in Psychological Research|pages=145–183|place=2455 Teller Road, Thousand Oaks California 91320|publisher=SAGE Publications, Inc|doi=10.4135/9781506304144.n6|isbn=978-1-5063-0416-8|access-date=2021-06-01}}</ref>。つまり、記述統計は推計統計と異なり、[[確率論]]に基づいて発展したものではなく、[[ノンパラメトリック手法]]であることが多い<ref>{{cite book |last=Dodge |first=Y. |year=2003 |title=The Oxford Dictionary of Statistical Terms |publisher=OUP |isbn=0-19-850994-4 |url-access=registration |url=https://archive.org/details/oxforddictionary0000unse }}</ref>。


データ分析においては、推計統計を用いて主要な結論を出す場合でも、一般的には記述統計も提示される<ref name=":0">{{Citation|title=Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing|date=2017|url=https://doi.org/10.4135/9781506304144.n6|work=Interpreting and Using Statistics in Psychological Research|pages=145–183|place=2455 Teller Road, Thousand Oaks California 91320|publisher=SAGE Publications, Inc|doi=10.4135/9781506304144.n6|isbn=978-1-5063-0416-8|access-date=2021-06-01}}</ref>。たとえば、ヒト被験者について報告する論文では、通常、全体の{{Ill2|標本数の決定|en|Sample size determination|label=標本数}}、重要なサブグループ(たとえば、各治療群や曝露群)の標本数、[[平均]]年齢、各性の被験者の割合、関連する[[合併症|併存症]]を持つ被験者の割合などの[[人口統計学]]または臨床的特徴を示す表が含まれる。
データ分析においては、推計統計を用いて主要な結論を出す場合でも、一般的には記述統計も提示される<ref name=":0">{{Citation|title=Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing|date=2017|url=https://doi.org/10.4135/9781506304144.n6|work=Interpreting and Using Statistics in Psychological Research|pages=145–183|place=2455 Teller Road, Thousand Oaks California 91320|publisher=SAGE Publications, Inc|doi=10.4135/9781506304144.n6|isbn=978-1-5063-0416-8|access-date=2021-06-01}}</ref>。たとえば、ヒト被験者について報告する論文では、通常、全体の{{Ill2|標本数の決定|en|Sample size determination|label=標本数}}、重要なサブグループ(たとえば、各治療群や曝露群)の標本数、[[平均]]年齢、各性の被験者の割合、関連する併存症を持つ被験者の割合などの[[人口統計学]]または臨床的特徴を示す表が含まれる。


データセットを記述するために一般的に使用される指標には、{{Ill2|中心傾向|en|Central tendency}}の指標と、変動性または[[統計的ばらつき|ばらつき]]の指標がある。中心傾向の指標には[[平均値]]、[[中央値]]、[[最頻値]]があり、変動性の指標には[[標準偏差]](または[[分散 (統計学)|分散]])、[[変数 (数学)|変数]]の最小値と最大値、[[尖度]]、[[歪度]]がある<ref name="Inv">Investopedia, [http://www.investopedia.com/terms/d/descriptive_statistics.asp#axzz2DxCoTnMM Descriptive Statistics Terms]</ref>。
データセットを記述するために一般的に使用される指標には、{{Ill2|中心傾向|en|Central tendency}}の指標と、変動性または[[統計的ばらつき|ばらつき]]の指標がある。中心傾向の指標には平均値、[[中央値]]、[[最頻値]]があり、変動性の指標には[[標準偏差]](または[[分散 (確率論)|分散]])、[[変数 (数学)|変数]]の最小値と最大値、[[尖度]]、[[歪度]]がある<ref name="Inv">Investopedia, [http://www.investopedia.com/terms/d/descriptive_statistics.asp#axzz2DxCoTnMM Descriptive Statistics Terms]</ref>。


== 統計分析での利用 ==
== 統計分析での利用 ==
記述統計は、標本や行われた観察についての簡単な要約を提供する.このような要約は、{{Ill2|要約統計|en|Summary statistics|label=要約統計量}}のような[[定量的研究|定量的]]なものもあれば、わかりやすい[[統計図表|グラフ]]のような[[データ可視化|視覚的]]なものもある。また、これらの要約は、より広範な統計解析の一部としてデータを最初に説明する際の基礎を成すこともあれば、特定の調査のためにはそれ自体で十分なこともある。
記述統計は、標本や行われた観察についての簡単な要約を提供する.このような要約は、{{Ill2|要約統計|en|Summary statistics|label=要約統計量}}のような定量的なものもあれば、わかりやすいグラフのような視覚的なものもある。また、これらの要約は、より広範な統計解析の一部としてデータを最初に説明する際の基礎を成すこともあれば、特定の調査のためにはそれ自体で十分なこともある。


たとえば、バスケットボールの[[パーセンテージ|シュート決定率]]は、選手やチームの成績を要約する記述統計量である。この数値は、ゴールしたシュート数を放ったシュート数で割ったものである。たとえば、シュート率33%の選手は、3回に1回の割合でシュートを決めている。パーセンテージは、複数の離散事象を要約または説明する。学生の[[成績評価|成績平均値]]も考えてみよう。この単一の数値は、ある学生のコース経験の範囲全体にわたる一般的な成績を記述するものである<ref name="trochim">{{cite web|last=Trochim|first=William M. K.|title=Descriptive statistics|url=http://www.socialresearchmethods.net/kb/statdesc.php|work=Research Methods Knowledge Base|access-date=14 March 2011|year=2006}}</ref>。
たとえば、バスケットボールのシュート決定率は、選手やチームの成績を要約する記述統計量である。この数値は、ゴールしたシュート数を放ったシュート数で割ったものである。たとえば、シュート率33%の選手は、3回に1回の割合でシュートを決めている。パーセンテージは、複数の離散事象を要約または説明する。学生の[[成績評価]]も考えてみよう。この単一の数値は、ある学生のコース経験の範囲全体にわたる一般的な成績を記述するものである<ref name="trochim">{{cite web|last=Trochim|first=William M. K.|title=Descriptive statistics|url=http://www.socialresearchmethods.net/kb/statdesc.php|work=Research Methods Knowledge Base|access-date=14 March 2011|year=2006}}</ref>。


記述統計と要約統計の使用には幅広い歴史があり、実際、人口や経済データの単純な集計は、[[統計学]]というトピックが最初に登場した手法であった。最近では、[[探索的データ解析]]という見出しの下に要約手法のコレクションが作成されている。そのような手法の例として、[[箱ひげ図]]がある。ビジネスの世界では、記述統計は多くの種類のデータに対する有用な要約を提供する。たとえば、投資家やブローカーは、将来のより良い投資決定を行うために、投資に関する[[実証研究|実証的]]分析および[[データ解析|解析的分析]]を行うことによって、リターン動向の歴史的根拠を活用することができる。
記述統計と要約統計の使用には幅広い歴史があり、実際、人口や経済データの単純な集計は、[[統計学]]というトピックが最初に登場した手法であった。最近では、[[探索的データ解析]]という見出しの下に要約手法のコレクションが作成されている。そのような手法の例として、[[箱ひげ図]]がある。ビジネスの世界では、記述統計は多くの種類のデータに対する有用な要約を提供する。たとえば、投資家やブローカーは、将来のより良い投資決定を行うために、投資に関する実証的分析および解析的分析を行うことによって、リターン動向の歴史的根拠を活用することができる。


=== 単変量解析 ===
=== 単変量解析 ===
{{Ill2|単変量解析|en|Univariate analysis}}では、中心傾向([[平均値]]、[[中央値]]、[[最頻値]])と分散(データセットの{{Ill2|範囲 (統計学)|en|Range (statistics)|label=範囲}}と[[四分位数]]、[[分散 (統計学)|分散]]や[[標準偏差]]などの広がりの尺度)を含む、単一変数の[[度数分布|分布]]を記述する。分布の形状は、[[歪度]]や[[尖度]]などの指標によって記述することもできる。変数の分布の特性は、[[ヒストグラム]]や[[幹葉表示]]など、グラフまたは表形式で表すこともできる。
{{Ill2|単変量解析|en|Univariate analysis}}では、中心傾向(平均値、[[中央値]]、[[最頻値]])と分散(データセットの{{Ill2|範囲 (統計学)|en|Range (statistics)|label=範囲}}と四分位数、[[分散 (確率論)|分散]]や[[標準偏差]]などの広がりの尺度)を含む、単一変数の分布を記述する。分布の形状は、[[歪度]]や[[尖度]]などの指標によって記述することもできる。変数の分布の特性は、[[ヒストグラム]]や[[幹葉表示]]など、グラフまたは表形式で表すこともできる。


[[正規分布]]の場合は、[[平均]]と、[[分散 (確率論)|分散]]または[[標準偏差]]で分布を記述できる。正規分布からのずれを知るためには、尖度や歪度などの高次[[モーメント (数学)|モーメント]]から求められる統計量を用いる。
[[正規分布]]の場合は、[[平均]]と、[[分散 (確率論)|分散]]または[[標準偏差]]で分布を記述できる。正規分布からのずれを知るためには、尖度や歪度などの高次[[モーメント (数学)|モーメント]]から求められる統計量を用いる。


正規分布から著しく外れた場合には、より頑健な[[中央値]]、[[四分位点]][[最大値・最小値]]や[[最頻値]]が用いられる。「頑健」とは分布の非対称性や[[外れ値]]などの影響を受けにくいことを意味する統計用語である。例えば、労働者一人あたりの年収を例に採れば、最も収入が少なくても0未満にはならないのに対し、収入が多いほうでは数十億円という年収を稼ぐ少数者があり得る。この場合の分布は、少数者が上側にいることによって、上側に極端に尾を引いた非対称な分布となる。平均値はこれらの極端な高値の影響を受け、分布の代表値として適切でないものとなってしまう。中央値や最頻値では、いかに飛び抜けた値であっても1例としてしか扱われないので、より大多数の実感に近い値を示すことができる。
正規分布から著しく外れた場合には、より頑健な[[中央値]]、四分位点、最大値・最小値や[[最頻値]]が用いられる。「頑健」とは分布の非対称性や[[外れ値]]などの影響を受けにくいことを意味する統計用語である。例えば、労働者一人あたりの年収を例に採れば、最も収入が少なくても0未満にはならないのに対し、収入が多いほうでは数十億円という年収を稼ぐ少数者があり得る。この場合の分布は、少数者が上側にいることによって、上側に極端に尾を引いた非対称な分布となる。平均値はこれらの極端な高値の影響を受け、分布の代表値として適切でないものとなってしまう。中央値や最頻値では、いかに飛び抜けた値であっても1例としてしか扱われないので、より大多数の実感に近い値を示すことができる。


=== 二変量解析および多変量解析 ===
=== 二変量解析および多変量解析 ===
標本が複数の変数で構成されている場合、記述統計を使用して、変数のペア間の関係を記述することができる。この場合、記述統計には次にあげるようなものがある。
標本が複数の変数で構成されている場合、記述統計を使用して、変数のペア間の関係を記述することができる。この場合、記述統計には次にあげるようなものがある。


* [[クロス集計表]]と[[分割表]]
* クロス集計表と[[分割表]]
* [[散布図]]によるグラフィカル表現
* [[散布図]]によるグラフィカル表現
* [[相関|依存性]]の定量的尺度
* [[相関]]の定量的尺度
* [[条件付き確率分布|条件付き分布]]の記述
* [[条件付き確率分布]]の記述


単変量解析と二変量解析を区別する主な理由は、二変量解析が単なる記述的な解析にとどまらず、異なる二つの変数間の関係を記述することである<ref>{{cite book |first=Earl R. |last=Babbie |title=The Practice of Social Research |url=https://archive.org/details/isbn_9780495598428 |url-access=registration |edition=12th |publisher=Wadsworth |year=2009 |isbn=978-0-495-59841-1 |pages=[https://archive.org/details/isbn_9780495598428/page/436 436–440] }}</ref>。依存性の定量的尺度には、相関(両方の変数が連続型の場合は[[ピアソンの相関係数|ピアソンのr]]、一方または両方が連続型でない場合は[[スピアマンの順位相関係数|スピアマンのrho]]など)と[[共分散]](尺度変数が対応していることを反映する{{訳語疑問点|date=2022年4月}})がある。回帰分析では、[[傾き (数学)|勾配]]も変数間の関連性を反映する。標準化されていない勾配は、[[予言#科学における予言|予測変数]]の1単位の変化に対する目的変数の単位変化を示す。標準化されている勾配は、この変化を標準化された単位([[標準得点|zスコア]])で示す。大きく歪んだデータは、対数をとって変換されることがよくある。対数を用いると、グラフはより対称的になり、[[正規分布]]に近くなるので、直感的に解釈しやすくなる<ref>{{cite book |first=Todd G. |last=Nick |chapter=Descriptive Statistics |title=Topics in Biostatistics |series=[[:en:Methods in Molecular Biology|Methods in Molecular Biology]] |volume=404 |location=New York |publisher=Springer |year=2007 |pages=33–52 |isbn=978-1-58829-531-6 |doi=10.1007/978-1-59745-530-5_3 |pmid=18450044 }}</ref>{{rp|47}}。
単変量解析と二変量解析を区別する主な理由は、二変量解析が単なる記述的な解析にとどまらず、異なる二つの変数間の関係を記述することである<ref>{{cite book |first=Earl R. |last=Babbie |title=The Practice of Social Research |url=https://archive.org/details/isbn_9780495598428 |url-access=registration |edition=12th |publisher=Wadsworth |year=2009 |isbn=978-0-495-59841-1 |pages=[https://archive.org/details/isbn_9780495598428/page/436 436–440] }}</ref>。依存性の定量的尺度には、相関(両方の変数が連続型の場合はピアソンのr、一方または両方が連続型でない場合は[[スピアマンの順位相関係数|スピアマンのrho]]など)と[[共分散]](尺度変数が対応していることを反映する{{訳語疑問点|date=2022年4月}})がある。回帰分析では、[[傾き (数学)|傾き]]も変数間の関連性を反映する。標準化されていない勾配は、[[予言#科学における予言|予測変数]]の1単位の変化に対する目的変数の単位変化を示す。標準化されている勾配は、この変化を標準化された単位([[標準得点]])で示す。大きく歪んだデータは、対数をとって変換されることがよくある。対数を用いると、グラフはより対称的になり、[[正規分布]]に近くなるので、直感的に解釈しやすくなる<ref>{{cite book |first=Todd G. |last=Nick |chapter=Descriptive Statistics |title=Topics in Biostatistics |series=[[:en:Methods in Molecular Biology|Methods in Molecular Biology]] |volume=404 |location=New York |publisher=Springer |year=2007 |pages=33–52 |isbn=978-1-58829-531-6 |doi=10.1007/978-1-59745-530-5_3 |pmid=18450044 }}</ref>{{rp|47}}。


==モーメントから求められる要約統計量==
==モーメントから求められる要約統計量==
63行目: 63行目:


=== 中央値===
=== 中央値===
メジアン、メディアン ({{lang-en-short|median}}) ともいう。データの大きさに関してちょうど中央に当たるデータ ''x''<sub>(''N'' + 1) / 2</sub> 。ただし、整数でない[[添字記法|添数]]に対する中央値は[[線形補間]]によって定義する(つまり ''N'' が偶数のときは ''x''<sub>''N'' / 2</sub> と ''x''<sub>''N'' / 2 + 1</sub> の平均とする)。
メジアン、メディアン ({{lang-en-short|median}}) ともいう。データの大きさに関してちょうど中央に当たるデータ x (<sub>''N'' + 1) / 2</sub> 。ただし、整数でない添数に対する中央値は[[線形補間]]によって定義する(つまり ''N'' が偶数のときは ''x''<sub>''N'' / 2</sub> と ''x''<sub>''N'' / 2 + 1</sub> の平均とする)。


=== 刈込平均({{仮リンク|トリム平均|en|trimmed mean}})===
=== 刈込平均({{仮リンク|トリム平均|en|trimmed mean}})===
69行目: 69行目:


=== 四分位点===
=== 四分位点===
集団を値の大きさで4等分するとき、その境界となる値。''x''<sub>(''N'' + 3) / 4</sub> を第1四分位点、''x''<sub>(3''N'' + 1) / 4</sub> を第3四分位点という。''x''<sub>(2''N'' + 2) / 4</sub> 、つまり第2四分位点は中央値である。
集団を値の大きさで4等分するとき、その境界となる値。x (<sub>''N'' + 3) / 4</sub> を第1四分位点、''x (''<sub>3''N'' + 1) / 4</sub> を第3四分位点という。''x''<sub>(2''N'' + 2) / 4</sub> 、つまり第2四分位点は中央値である。


===最小値・最大値===
===最小値・最大値===

2024年3月24日 (日) 02:19時点における最新版

要約統計(ようやくとうけい、: summary statistic)あるいは、記述統計: descriptive statistic)とは、標本の分布の特徴を定量的に記述し要約する統計学上の値であり、統計量の一種である。基本統計: basic statistic)または代表値(: representative value)とも呼ばれることもある[1][2]

概要

[編集]

記述統計学: descriptive statistics)は、こうした統計量を用いて分析する学問領域である。記述統計学は、データを用いてデータの標本が表すと考えられる母集団について知るのではなく、標本を要約することを目的としている点で、推計統計学: inferential statistics, or inductive statistics)と区別される[3]。つまり、記述統計は推計統計と異なり、確率論に基づいて発展したものではなく、ノンパラメトリック手法であることが多い[4]

データ分析においては、推計統計を用いて主要な結論を出す場合でも、一般的には記述統計も提示される[3]。たとえば、ヒト被験者について報告する論文では、通常、全体の標本数英語版、重要なサブグループ(たとえば、各治療群や曝露群)の標本数、平均年齢、各性の被験者の割合、関連する併存症を持つ被験者の割合などの人口統計学または臨床的特徴を示す表が含まれる。

データセットを記述するために一般的に使用される指標には、中心傾向英語版の指標と、変動性またはばらつきの指標がある。中心傾向の指標には平均値、中央値最頻値があり、変動性の指標には標準偏差(または分散)、変数の最小値と最大値、尖度歪度がある[5]

統計分析での利用

[編集]

記述統計は、標本や行われた観察についての簡単な要約を提供する.このような要約は、要約統計量英語版のような定量的なものもあれば、わかりやすいグラフのような視覚的なものもある。また、これらの要約は、より広範な統計解析の一部としてデータを最初に説明する際の基礎を成すこともあれば、特定の調査のためにはそれ自体で十分なこともある。

たとえば、バスケットボールのシュート決定率は、選手やチームの成績を要約する記述統計量である。この数値は、ゴールしたシュート数を放ったシュート数で割ったものである。たとえば、シュート率33%の選手は、3回に1回の割合でシュートを決めている。パーセンテージは、複数の離散事象を要約または説明する。学生の成績評価も考えてみよう。この単一の数値は、ある学生のコース経験の範囲全体にわたる一般的な成績を記述するものである[6]

記述統計と要約統計の使用には幅広い歴史があり、実際、人口や経済データの単純な集計は、統計学というトピックが最初に登場した手法であった。最近では、探索的データ解析という見出しの下に要約手法のコレクションが作成されている。そのような手法の例として、箱ひげ図がある。ビジネスの世界では、記述統計は多くの種類のデータに対する有用な要約を提供する。たとえば、投資家やブローカーは、将来のより良い投資決定を行うために、投資に関する実証的分析および解析的分析を行うことによって、リターン動向の歴史的根拠を活用することができる。

単変量解析

[編集]

単変量解析英語版では、中心傾向(平均値、中央値最頻値)と分散(データセットの範囲英語版と四分位数、分散標準偏差などの広がりの尺度)を含む、単一変数の分布を記述する。分布の形状は、歪度尖度などの指標によって記述することもできる。変数の分布の特性は、ヒストグラム幹葉表示など、グラフまたは表形式で表すこともできる。

正規分布の場合は、平均と、分散または標準偏差で分布を記述できる。正規分布からのずれを知るためには、尖度や歪度などの高次モーメントから求められる統計量を用いる。

正規分布から著しく外れた場合には、より頑健な中央値、四分位点、最大値・最小値や最頻値が用いられる。「頑健」とは分布の非対称性や外れ値などの影響を受けにくいことを意味する統計用語である。例えば、労働者一人あたりの年収を例に採れば、最も収入が少なくても0未満にはならないのに対し、収入が多いほうでは数十億円という年収を稼ぐ少数者があり得る。この場合の分布は、少数者が上側にいることによって、上側に極端に尾を引いた非対称な分布となる。平均値はこれらの極端な高値の影響を受け、分布の代表値として適切でないものとなってしまう。中央値や最頻値では、いかに飛び抜けた値であっても1例としてしか扱われないので、より大多数の実感に近い値を示すことができる。

二変量解析および多変量解析

[編集]

標本が複数の変数で構成されている場合、記述統計を使用して、変数のペア間の関係を記述することができる。この場合、記述統計には次にあげるようなものがある。

単変量解析と二変量解析を区別する主な理由は、二変量解析が単なる記述的な解析にとどまらず、異なる二つの変数間の関係を記述することである[7]。依存性の定量的尺度には、相関(両方の変数が連続型の場合はピアソンのr、一方または両方が連続型でない場合はスピアマンのrhoなど)と共分散(尺度変数が対応していることを反映する[訳語疑問点])がある。回帰分析では、傾きも変数間の関連性を反映する。標準化されていない勾配は、予測変数の1単位の変化に対する目的変数の単位変化を示す。標準化されている勾配は、この変化を標準化された単位(標準得点)で示す。大きく歪んだデータは、対数をとって変換されることがよくある。対数を用いると、グラフはより対称的になり、正規分布に近くなるので、直感的に解釈しやすくなる[8]:47

モーメントから求められる要約統計量

[編集]

N 個のデータ に対する統計量を考える。まず、平均値 と、平均値まわりの m 次中央モーメント[9]

で定義する。

平均

[編集]

原点まわりの1次モーメント 。和を個数で割ったもの。

分散、標準偏差

[編集]

2次中央モーメントから求められる統計量。分布の広がりを表す。

分散:  
標準偏差:

歪度

[編集]

3次中央モーメントから求められる統計量。分布の左右非対称の度合いを表す。

尖度

[編集]

4次中央モーメントから求められる統計量。分布の峰の鋭さ(裾野の広さ)を表す。

ただし、3 を引かない定義もある。

順序から求められる要約統計量

[編集]

以下、昇順にソートされた N 個のデータ に対する統計量(順序統計量)を考える。

中央値

[編集]

メジアン、メディアン (: median) ともいう。データの大きさに関してちょうど中央に当たるデータ x (N + 1) / 2 。ただし、整数でない添数に対する中央値は線形補間によって定義する(つまり N が偶数のときは xN / 2xN / 2 + 1 の平均とする)。

刈込平均(トリム平均英語版

[編集]

最大値、最小値を除外した平均。除外する数を増やして行くと、最後は中央値になる。そのため、中央値は刈込平均の一つである[10]

四分位点

[編集]

集団を値の大きさで4等分するとき、その境界となる値。x (N + 3) / 4 を第1四分位点、x (3N + 1) / 4 を第3四分位点という。x(2N + 2) / 4 、つまり第2四分位点は中央値である。

最小値・最大値

[編集]

集団に含まれる最も小さい値 x1 と、最も大きい値 xN

これらの統計量を視覚化するために、箱ひげ図を用いる。

中点値

[編集]

最大値と最小値を足して2で割ったものを中点値(: mid-range)とよび、代表値として用いることがある[11]

範囲

[編集]

最大値と最小値の差を範囲(: range)とよび、代表値として用いることがある[12]。記号はRを用いる。

度数から求められる要約統計量

[編集]

最頻値

[編集]

最頻値は、モード (: mode)または 並み数 ともいい、データのうち、度数分布において最も高い度数を示す値、つまり最も多く現れているデータの値である。

脚注

[編集]
  1. ^ 西岡, p.1.
  2. ^ 伏見, 第III章 記述統計量 13節 確率分布、統計分布 p.110.
  3. ^ a b “Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing”, Interpreting and Using Statistics in Psychological Research (2455 Teller Road, Thousand Oaks California 91320: SAGE Publications, Inc): pp. 145–183, (2017), doi:10.4135/9781506304144.n6, ISBN 978-1-5063-0416-8, https://doi.org/10.4135/9781506304144.n6 2021年6月1日閲覧。 
  4. ^ Dodge, Y. (2003). The Oxford Dictionary of Statistical Terms. OUP. ISBN 0-19-850994-4. https://archive.org/details/oxforddictionary0000unse 
  5. ^ Investopedia, Descriptive Statistics Terms
  6. ^ Trochim, William M. K. (2006年). “Descriptive statistics”. Research Methods Knowledge Base. 14 March 2011閲覧。
  7. ^ Babbie, Earl R. (2009). The Practice of Social Research (12th ed.). Wadsworth. pp. 436–440. ISBN 978-0-495-59841-1. https://archive.org/details/isbn_9780495598428 
  8. ^ Nick, Todd G. (2007). “Descriptive Statistics”. Topics in Biostatistics. Methods in Molecular Biology. 404. New York: Springer. pp. 33–52. doi:10.1007/978-1-59745-530-5_3. ISBN 978-1-58829-531-6. PMID 18450044 
  9. ^ 用語「m 次中央モーメント」は、竹内啓(編集委員代表)『統計学辞典』東洋経済新報社, 1989 による。
  10. ^ 西岡康夫,数学チュートリアル やさしく語る 確率統計,オーム社, p.5, p.52013, ISBN 9784274214073
  11. ^ JIS Z 8101-1 : 1999, 2.16 中点値.
  12. ^ JIS Z 8101-1 : 1999, 2.17 範囲.

参考文献

[編集]

関連項目

[編集]

外部リンク

[編集]