箸休め(統計)_代表値と標準化(Zscore)

指揮者
指揮者

ある点を見つける

中央値(データ個数の内ちょうど「真ん中の順位」の値)

  • 「各値との距離の合計」を最短にする値(=最短にする点を見つける)。
  • e.g. A. 166 + B. 170 + C. 172:中央値170の場合、中央値からの各値の距離の合計は4+2=6。
  • 仮に中央値が169の場合、各値までの距離は、3 + 1 + 3 = 7。最短ではない。
  • 計算:データを大きい/小さい順に並べる。データ数が奇数もしくは偶数かを確認する。真ん中の値を見つける。
  • 中央値は順位が1つズレるだけなので、外れ値の影響が少ない。

平均値(値の合計 ÷ 標本の大きさ)

  • 「各値との距離の2乗の合計」を最短にする値(=最短にする点を見つける)。
  • e.g. A. 166 + B. 170 + C. 172:4^2 + 2^2 = 20は最短ではない。
  • (166 + 170 + 172) ÷ 3 = 169.3(距離の2乗の合計が最短となる点:3.3^2 + 0.7^2 + 2.7^2 = 18.7)。
  • 中央値と比較して、値の離れ具合が考慮される為、外れ値の影響は大きい。
指揮者
指揮者

ばらつき具合(ある点に対する離れ具合)を見つける

平均偏差(← 中央値から観測値までの平均的な距離)2乗していないバラつき具合。

  • 変数の「各値と代表値(中央値 or 平均値)との『距離』の平均」= ばらつき(ある点からの離れ具合の平均)。
  • (各値と中央値との距離の合計)÷ 標本の大きさ = 平均偏差。
  • e.g. A. 166 + B. 170 + C. 172:中央値170の場合、中央値からの各値の距離の合計は4+2=6。
  • 計算:(4 + 0 + 2)÷ 3 = 2。

分散(← 「平均値から観測値までの距離」の2乗の平均値)ばらつき具合の平均値。計算時2乗。

  • 「平均との距離の2乗」を合計し、標本の大きさ(標本の数)で割ったもの。平均値からの平均的なバラつき(離れ具合)。
  • 平均169.3 :(166 + 170 + 172) ÷ 3 = 169.3(距離の2乗の合計が最短となる点:3.3^2 + 0.7^2 + 2.7^2 = 18.7)。
  • 分散:169.3から各値までの距離の2乗の平均:(3.3^2 + 0.7^2 + 2.7^2) ÷ 3 = 6.2。
  • 2乗をする理由は、距離を計算する際の値をすべて正の値とする為。なお、外れ値の影響は大きくなる。

標準偏差(=√分散): 分散時の2乗の尺度を元に戻して分かり易く(ばらつき具合の平均値で2乗解除)

  • 分散の尺度を元に戻して解釈しやすくした値。
  • 分散は平均値から各値の距離の2乗を合計した平均値である為、元々の尺度よりも大きな単位となっている。従って。元々の尺度に戻す作業を行い、解釈を容易にしている。
  • 標準偏差 = √分散
  • 標準偏差が大きいということは、(前提として同じ条件で計測しているものの)①データの広がりが大きい(平均値から離れている)、②予測が難しい、③外れ値の影響が大きい、④データの一貫性が乏しい(異なる結果が得られている)。
  • 外れ値を除外する場合には、標準偏差±2で除去する事が多い。
  • 「標準偏差±2」は、データの平均値から標準偏差の2倍上(+2σ:ばらつき具合の平均値の2倍)と2倍下(-2σ)の範囲を示します。この範囲を「平均±2標準偏差」とも言います。数式で表すと、この範囲は [μ – 2σ, μ + 2σ]。正規分布において、平均±1標準偏差の範囲: 約68%のデータが含まれる。平均±2標準偏差の範囲: 約95%のデータが含まれる。平均±3標準偏差の範囲: 約99.7%のデータが含まれる。例えば、ある商品の製造工程で測定された寸法のデータがあるとします。平均が100mm、標準偏差が2mmであれば、標準偏差±2の範囲は [96mm, 104mm] となります。この範囲内に収まらない寸法の製品が見つかった場合、それは製造工程に問題があるか、検査ミスがあった可能性が考えられます。

標準化(変数 → Zスコアへ変換:異なるスケールのデータを比較可能にするため)

  • 特定の平均と標準偏差となるような変数の変換(変数の値 → Zスコアに変換)。
  • 各値(観測値)から①平均をひく、②標準偏差で割る。(変数の観測値 – 平均値)÷ 標準偏差 = 標準化後の値。
  • ある固有値に対して、①平均からの離れ具合を計測し、それを②標準偏差(平均的なばらつき具合)で割る事で、ある固有値の離れ具合は、平均なばらつき具合からすると、どの程度平均値から離れているのか、が相対的に分かる。
  • 標準化の値が以下の計算で求められる理由は、データのばらつきを統一し、異なるスケールのデータを比較可能にするためです。Z Score = 【X(元の変数の観測値)- μ(元の変数の平均値)】÷ σ(元の変数の標準偏差)= ある観測値の平均値からの離れ具合は全体の離れ具合からすると、大きく離れているのかどうか。ZScoreが大きければ大きく離れている。
  • 異なるスケールのデータを比較可能にする理由は、 (X−μ) を標準偏差 σで割ることで、データのばらつきの影響を取り除きます。標準偏差はデータのばらつきの程度を示す指標であり、これを使って差を割ることによって、ばらつきの違いを考慮に入れた比較ができるようになります。
  • 標準化を行うことで、新しい標準化されたデータセットの平均値は0、標準偏差は1になります。これは、標準化されたデータが平均値に対してどれだけの標準偏差分だけ離れているかを示すことを意味します。【X(元の変数の観測値)- μ(変数の平均値)】で得られる値は平均からの差であり、例えば、これをA、B、Cの各々の数値として扱い、その平均を考える場合には、平均からの差分を足し合わせる為、平均値はゼロとなる(棒グラフをイメージしてみればよい)。これは、平均がゼロになる理由: 各データから平均を引くことで、データ全体の中心をゼロにシフトさせているといえる。
  • また、標準偏差が1になる理由は、元々の数値で算出した標準偏差で割り算をする作業を行っている為である。(X – μ) ÷ σ。そもそもZScoreの前提は、標準偏差を1とした時の相対的な値を算出している為、標準化後の値(Z Score)は、平均値をゼロ、標準偏差を1となる事が前提で、算出されている。
  • こうする事で、元々スケール(ものさし・単位)が異なる対象同士を、平均値ゼロ・標準偏差1を前提とする世界にもってきて、その時の値を標準化後の値として取り扱う。結果、(元々の値から変換した)標準化後の値(Z Score)を比較する事が可能となる。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA