統計を理解するためには、まず基本概念を知る必要があります。
本記事では統計の基礎となる「代表値」について解説します。
【代表値】averages
分布やデータを代表する値、グラフのように人の視覚(感覚)に頼らない数量的概念です。
平均値(算術平均)・中央値・最頻値など全体を代表する値のことをいいます。
【平均値】mean(算術平均)
全てのデータの値をたして、データの個数で割ったもので、一般的によく言う平均のことです。
平均値は全体の重心を表し、異常値(外れ値)の影響を受けやすいという特徴があります。
Excel関数:AVERAGE
空白を含む場合AVERAGEA
条件付ける場合AVERAGEIF、AVERAGEIFS
異常値を除く場合TRIMMEAN

【中央値】median(メディアン)
データを大きさの順に並び替えたときの中央(真ん中に来る)の値です。
平均値とは異なり、異常値(外れ値)の影響を受けにくいのが特徴です。
Excel関数:MEDIAN

※メディアンの考えを拡張したものに分位点があり、百分位点(百分率(%))や四分位点などがこれに当たります。
【四分位点】
小さいものから順に並び替えたデータを4等分したときの三つの分割点です。
第1四分位点(Q1)・・・25%分位点
第2四分位点(Q2)・・・50%分位点(中央値)
第3四分位点(Q3)・・・75%分位点
Excel関数:QUARTILE(QUARTILE.INC)、QUARTILE.EXC
百分位PERCENTILE(PERCENTILE.INC)、PERCENTILE.EXC
百分位で数値を求めるPERCENTRANK(PERCENTRANK.INC)、PERCENTRANK.EXC
【最頻値】mode(モード)
分布の峰に対応する値(最も頻度の高いもの、縦棒グラフ(ヒストグラム)で最も高い山のこと)です。
Excel関数:MODE(MODE.SNGL)、MODE.MULT
【最大値、最小値】max、min
データの最大値と最小値です。
Excel関数:最大値MAX、空白を含む場合MAXA
最小値MIN、空白を含む場合MINA

【二乗平均】
二乗した全てのデータの値をたして、データの個数で割ったもので、分散や回帰計算などで使用されます。

計算例
1~10の値をランダムに20個用意しました。
その値使ってそれぞれの値を計算した結果を以下に示します。
データ:6,7,9,9,10,7,1,4,1,9,8,4,8,4,4,2,4,6,5,9

平均値・中央値・最頻値の例

まとめ
- 代表値はデータを代表する値
- 主な代表値は平均値・中央値・最頻値
- 平均値は外れ値の影響を受けやすい
- 中央値は外れ値に強い




-120x68.jpg)
コメント