指揮者
前提となる観察対象の違い
母集団と標本(標本統計量(推定量))
- 不偏性(平均的には偏らない性質(母数と一致する性質))があればその値をそのまま点推定に使える。
- 母平均の点推定に標本平均を使える。
- 母集団の分散の推定には、不偏分散を利用する。分散を計算する際に分母が「データの個数-1」になる。
- データセットが母集団全体から無作為に抽出された標本である場合、標本から計算される分散(標本分散)は、母集団全体の分散(母分散)に対して偏りがちです。標本分散は一般的に母分散よりも小さくなる傾向があります。これは、標本の中のデータが母集団の真の平均(母平均)ではなく、標本平均に基づいているためです。
- (直観的には)標本分散のバラつきが小さくなりすぎる傾向に対しては、計算途中の分母の数を小さくすれば、分散の値として小さくなり過ぎる事を回避できます。なぜ-1かの理由は、母集団の分散が、データの個数で割るようりも、真の値に近づくためには、分母に自由度の数で割り算した方が適切ということ。自由度で割る理由: 標本から母集団の特性(例えば、分散)を推定するとき、自由度で割ることによって、標本の平均に対する偏りを補正します。これにより、標本分散の期待値(平均的な結果)が母集団の分散と一致し、標本から得られる分散の推定が「不偏」となるのです。
指揮者
自由度について考える。
自由度(制約条件(平均など)を前提に、データセット内において独立して変動可能な数値の数)
- 自由度(degrees of freedom, df)とは、統計学において、データセット内の値が独立して変動できる数を指します。具体的には、データセット内の観測値のうち、計算に使われる制約条件(例えば、平均値など)を差し引いた数です。自由度は、統計的な計算(特に分散や標準偏差の推定)や検定において重要な概念であり、推定値のバイアスを補正するために使われます。
- 平均を使った場合の自由度。ある標本に n 個の観測値があるとします。その標本の平均を計算した場合、全ての観測値が独立に変動できるわけではありません。なぜなら、平均が固定されている場合、最後の1つの観測値は他の n−1 個の観測値によって決まってしまうからです。例えば、5つの観測値がある標本があり、それらの平均が10だとします。最初の4つの観測値がすでに決まっている場合、最後の観測値は平均10を保つために固定されてしまいます。このとき、実際に自由に変動できるのは最初の4つの観測値だけです。この場合、自由度は n−1 になります。
- 観測値の数 – 推定するパラメータの数
- この考え方により、自由度は「データが独立に変動できる残りの余地」を示しています。自由度を適切に考慮することで、標本のバイアスを補正し、より正確な統計推定が可能になります。
- バイアス補正: 自由度を考慮することで、標本データから推定される統計量(分散や標準偏差など)が母集団の真の値に対してバイアスを持たないように調整できます。
- これは例えば分散の平均的な期待値を計算しようとした際に、各施行の分散の平均が、実際に母集団の分散に近づく事が数学的に証明されているもの。