2018年7月21日

不偏分散の定義と証明,および n-1 の解釈

Abstract
  本投稿では,不偏分散の定義とその解釈について説明する. 不偏分散 $\sigma_u^2$ は, 1) 標本分散の期待値 $E[\sigma^2]=\frac{n-1}{n}\sigma_0^2$ と, 2) 母分散 $\sigma_0^2$ の偏りを無くすため,標本分散 $\sigma^2$ を $\frac{n}{n-1}$ 倍した値として定義される. このように,不偏分散は,期待値について偏りの無い分散として定義される. 数式の解釈について,サンプル数が有限の場合 (特に,サンプル数が極端に少ない場合),母分散の範囲に当たりをつけるには,分散を広めに見積もる必要がある.$\frac{n}{n-1}$ 倍は,1) と 2) を比較して,どの程度範囲を広げれば母分散の範囲を指示できるか,を計算した値と考えられる.

※ $n_0$ は 母数, $n$ は 標本の数 (サンプル数), $\overline{x}\equiv\frac{1}{n}\sum_{i=1}^n{x_i}$ は 標本平均, $\sigma^2\equiv\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2$ は 標本分散, $\overline{x}_0\equiv\frac{1}{n_0}\sum_{i=1}^{n_0}{x_i}$ は 母平均, $\sigma_0^2\equiv\frac{1}{n_0}\sum_{i=1}^{n_0}(x_i-\overline{x})^2$ は 母分散, $\sigma_u^2\equiv\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2$ は 不偏分散, をそれぞれ表す.
定義

      不偏分散 $\sigma_u^2$ は,標本分散 $\sigma^2$ の期待値 \begin{align*} E\bigl[\sigma^2\bigr]=E\biggl[\frac{1}{n} \sum_{i=1}^n(x_i-\overline{x})^2\biggr]=\frac{n-1}{n}\sigma_0^2 \end{align*}     が,母分散 $\sigma_0^2$ と一致するように,標本分散 $\sigma^2$ を $\frac{n}{n-1}$ 倍した値 \begin{align*} \sigma_u^2\equiv\frac{n}{n-1}\sigma^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2 \end{align*}     として定義される.(このとき,$E[X]$ は,$X$ の期待値を示す.また,$n$ は標本数,$n_0$ は母数,$\overline{x}$ は標本平均,$\overline{x_0}$ は母平均,
    をそれぞれ表す.)


[証明]
$E[\sigma^2]=\frac{n-1}{n}\sigma_0^2$ の導出
  補助計算 ※1. ※2. を用いると標本分散の期待値は, \begin{align*} E\bigl[\sigma^2\bigr] &=E\biggl[\frac{1}{n}\sum_{p=1}^n(x_p-\overline{x})^2\biggr]\\ &=E\biggl[\frac{1}{n}\sum_{p=1}^n\Bigl(x_p-\frac{1}{n}\sum_{q=1}^n x_q\Bigr)^2\biggr]\\ &=\frac{1}{n}\sum_{p=1}^nE\biggl[\Bigl(x_p-\frac{1}{n}\sum_{q=1}^n x_q\Bigr)^2\biggr]\\ &=\frac{1}{n}\sum_{p=1}^nE\biggl[x_p^2-\frac{2}{n}x_p\sum_{q=1}^n x_q+\frac{1}{n^2}\sum_{q=1}^n x_q\sum_{r=1}^n x_r\biggr]\\ &=\frac{1}{n}\sum_{p=1}^n\biggl\{E\bigl[x_p^2\bigr] - \frac{2}{n}\Bigl(E\bigl[x_p^2\bigr] + \sum_{q\neq p}^nE\bigl[x_p x_q\bigr]\Bigr) + \frac{1}{n^2}\Bigl(\sum_{q=1}^n E\bigl[x_q^2\bigr] + \sum_{q=1}^n \sum_{r\neq q}^n E\bigl[x_r x_q\bigr]\Bigr) \biggr\}\\ &=\frac{1}{n}\sum_{p=1}^n\biggl\{E\bigl[x_p^2\bigr] - \frac{2}{n}\Bigl(E\bigl[x_p^2\bigr] + (n-1)E\bigl[x_p x_q\bigr]\Bigr) + \frac{1}{n^2}\Bigl(n E\bigl[x_q^2\bigr] + n(n-1) E\bigl[x_r x_q\bigr]\Bigr) \biggr\}\\ &=\frac{1}{n}\sum_{p=1}^n\biggl( \frac{n-2}{n}E\bigl[x_p^2\bigr] - 2\frac{n-1}{n}E\bigl[x_p x_q\bigr] + \frac{1}{n}E\bigl[x_q^2\bigr] + \frac{n-1}{n} E\bigl[x_r x_q\bigr] \biggr)\\ &=\frac{1}{n}\sum_{p=1}^n\biggl( \frac{n-1}{n}E\bigl[x_p^2\bigr] - \frac{n-1}{n}E\bigl[x_p x_q\bigr] \biggr)\\ &=\frac{1}{n}n \cdot \frac{n-1}{n}\Bigl( E\bigl[x_p^2\bigr] - E\bigl[x_p x_q\bigr] \Bigr)\\ &=\frac{n-1}{n}\Bigl( E\bigl[x_p^2\bigr] - E\bigl[x_p x_q\bigr] \Bigr)\\ &=\frac{n-1}{n}\Bigl\{ \bigl(\sigma_0^2+\overline{x_0}^2\bigr) - \overline{x_0}^2 \Bigr\}\\ &=\frac{n-1}{n}\sigma_0^2 \end{align*} となる[1][4].

補助計算
※1. $E[x_i^2]=\sigma_0^2+\overline{x_0}^2$.
[証明1]
  $X$ の分散 $Var(X)$ は, \begin{align*} Var(X)&=E\bigl[(X-\overline{X})^2\bigr]\\ &=E\bigl[(X-E[X])^2\bigr]\\ &=E\bigl[X^2-2XE[X]+E[X]^2\bigr]\\ &=E[X^2]-2E[X]E[X]+E[X]^2\\ &=E[X^2]-E[X]^2\\ \end{align*} となる[2].これを用いて,求める値は, \begin{align*} Var(X)&=E[X^2]-E[X]^2\\ \Leftrightarrow \ \ \ \ \ \ \ \ \ \ \sigma_0^2&=E[x_i^2]-\overline{x_0}^2 \end{align*} となる[4][5].

[証明2](別解)
  分散と期待値の関係は, \begin{align*} \frac{1}{n_0}\sum_{i=1}^{n_0}(x_i-\overline{x_0})^2 &= \frac{1}{n_0}\sum_{i=1}^{n_0}(x_i^2-2\overline{x_0}x_i+\overline{x_0}^2)\\ &=\Bigl(\frac{1}{n_0}\sum_{i=1}^{n_0}x_i^2\Bigr) - 2\overline{x_0}\Bigl(\frac{1}{n_0}\sum_{i=1}^{n_0}x_i\Bigr) + \frac{1}{n_0}n_0 \cdot \overline{x_0}^2\\ &=\Bigl(\frac{1}{n_0}\sum_{i=1}^{n_0}x_i^2\Bigr) - \overline{x_0}^2\\ &=E[x_i^2] - \overline{x_0}^2\\ \Leftrightarrow \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \sigma_0^2&=E[x_i^2]-\overline{x_0}^2 \end{align*} と表される[3].

[証明1] または [証明2] より,$E[x_i^2]=\sigma_0^2+\overline{x_0}^2$ となる.

※2. $E[x_p x_q]=\overline{x_0}^2$
[証明]
  共分散と期待値の関係は, \begin{align*} \sigma_{XY}&=Cov(X, Y)\\ &= E[(X-\overline{X})(Y-\overline{Y})]\\ &= E[(X-E[X])(Y-E[Y])]\\ &= E[XY-XE[Y]-E[X]Y+E[X]E[Y]]\\ &= E[XY]-E[X]E[Y]-E[X]E[Y]+E[X]E[Y]\\ &= E[XY]-E[X]E[Y] \end{align*} と表される[5].ここで,ランダムサンプリングのとき,$X$ と $Y$ は独立であるから,共分散 $\sigma_{XY}=0$ となる.したがって, \begin{align*} 0 &= E[XY]-E[X]E[Y]\\ \Leftrightarrow E[XY] &= E[X]E[Y] \end{align*} となる.これを用いて,求める関係式は, \begin{align*} E[XY] &= E[X]E[Y]\\ \Leftrightarrow E[x_p x_q] &= E[x_p]E[x_q]\\ &= \overline{x_0}^2 \end{align*} と導出される.

最終的に,標本分散を $\frac{n}{n-1}$ 倍した,不偏分散 $\sigma_u^2$ の期待値は, \begin{align*} E\bigl[\sigma_u^2\bigr] &=E\biggl[\frac{n}{n-1} \cdot \sigma^2\biggr]\\ &=E\biggl[\frac{n}{n-1} \cdot \frac{1}{n}\sum_{p=1}^n(x_p-\overline{x})^2\biggr]\\ &=\frac{n}{n-1} \cdot \frac{n-1}{n}\sigma_0^2\\ &=\sigma_0^2 \end{align*} となり,母分散 $\sigma_0^2$ と一致する.
解釈
  数式の解釈について,サンプル数が有限の場合 (特に,サンプル数が極端に少ない場合),母分散の範囲に当たりをつけるには,分散を広めに見積もる必要がある.$\frac{n}{n-1}$ 倍は,標本分散の期待値と母分散を比較して,どの程度範囲を広げれば母分散の範囲を指示できるか,を計算した値と考えられる.
References

0 件のコメント:

コメントを投稿