Abstract
本投稿では,不偏分散の定義とその解釈について説明する.
不偏分散 $\sigma_u^2$ は,
1) 標本分散の期待値 $E[\sigma^2]=\frac{n-1}{n}\sigma_0^2$ と,
2) 母分散 $\sigma_0^2$
の偏りを無くすため,標本分散 $\sigma^2$ を $\frac{n}{n-1}$ 倍した値として定義される.
このように,不偏分散は,期待値について偏りの無い分散として定義される.
数式の解釈について,サンプル数が有限の場合 (特に,サンプル数が極端に少ない場合),母分散の範囲に当たりをつけるには,分散を広めに見積もる必要がある.$\frac{n}{n-1}$ 倍は,1) と 2) を比較して,どの程度範囲を広げれば母分散の範囲を指示できるか,を計算した値と考えられる.
※ $n_0$ は 母数, $n$ は 標本の数 (サンプル数), $\overline{x}\equiv\frac{1}{n}\sum_{i=1}^n{x_i}$ は 標本平均, $\sigma^2\equiv\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2$ は 標本分散, $\overline{x}_0\equiv\frac{1}{n_0}\sum_{i=1}^{n_0}{x_i}$ は 母平均, $\sigma_0^2\equiv\frac{1}{n_0}\sum_{i=1}^{n_0}(x_i-\overline{x})^2$ は 母分散, $\sigma_u^2\equiv\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2$ は 不偏分散, をそれぞれ表す.
※ $n_0$ は 母数, $n$ は 標本の数 (サンプル数), $\overline{x}\equiv\frac{1}{n}\sum_{i=1}^n{x_i}$ は 標本平均, $\sigma^2\equiv\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2$ は 標本分散, $\overline{x}_0\equiv\frac{1}{n_0}\sum_{i=1}^{n_0}{x_i}$ は 母平均, $\sigma_0^2\equiv\frac{1}{n_0}\sum_{i=1}^{n_0}(x_i-\overline{x})^2$ は 母分散, $\sigma_u^2\equiv\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2$ は 不偏分散, をそれぞれ表す.
定義
不偏分散 $\sigma_u^2$ は,標本分散 $\sigma^2$ の期待値 \begin{align*} E\bigl[\sigma^2\bigr]=E\biggl[\frac{1}{n} \sum_{i=1}^n(x_i-\overline{x})^2\biggr]=\frac{n-1}{n}\sigma_0^2 \end{align*} が,母分散 $\sigma_0^2$ と一致するように,標本分散 $\sigma^2$ を $\frac{n}{n-1}$ 倍した値 \begin{align*} \sigma_u^2\equiv\frac{n}{n-1}\sigma^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2 \end{align*} として定義される.(このとき,$E[X]$ は,$X$ の期待値を示す.また,$n$ は標本数,$n_0$ は母数,$\overline{x}$ は標本平均,$\overline{x_0}$ は母平均, をそれぞれ表す.) |
[証明]
$E[\sigma^2]=\frac{n-1}{n}\sigma_0^2$ の導出
最終的に,標本分散を $\frac{n}{n-1}$ 倍した,不偏分散 $\sigma_u^2$ の期待値は, \begin{align*} E\bigl[\sigma_u^2\bigr] &=E\biggl[\frac{n}{n-1} \cdot \sigma^2\biggr]\\ &=E\biggl[\frac{n}{n-1} \cdot \frac{1}{n}\sum_{p=1}^n(x_p-\overline{x})^2\biggr]\\ &=\frac{n}{n-1} \cdot \frac{n-1}{n}\sigma_0^2\\ &=\sigma_0^2 \end{align*} となり,母分散 $\sigma_0^2$ と一致する.
補助計算 ※1. ※2. を用いると標本分散の期待値は,
\begin{align*}
E\bigl[\sigma^2\bigr]
&=E\biggl[\frac{1}{n}\sum_{p=1}^n(x_p-\overline{x})^2\biggr]\\
&=E\biggl[\frac{1}{n}\sum_{p=1}^n\Bigl(x_p-\frac{1}{n}\sum_{q=1}^n x_q\Bigr)^2\biggr]\\
&=\frac{1}{n}\sum_{p=1}^nE\biggl[\Bigl(x_p-\frac{1}{n}\sum_{q=1}^n x_q\Bigr)^2\biggr]\\
&=\frac{1}{n}\sum_{p=1}^nE\biggl[x_p^2-\frac{2}{n}x_p\sum_{q=1}^n x_q+\frac{1}{n^2}\sum_{q=1}^n x_q\sum_{r=1}^n x_r\biggr]\\
&=\frac{1}{n}\sum_{p=1}^n\biggl\{E\bigl[x_p^2\bigr]
- \frac{2}{n}\Bigl(E\bigl[x_p^2\bigr] + \sum_{q\neq p}^nE\bigl[x_p x_q\bigr]\Bigr)
+ \frac{1}{n^2}\Bigl(\sum_{q=1}^n E\bigl[x_q^2\bigr] + \sum_{q=1}^n \sum_{r\neq q}^n E\bigl[x_r x_q\bigr]\Bigr) \biggr\}\\
&=\frac{1}{n}\sum_{p=1}^n\biggl\{E\bigl[x_p^2\bigr]
- \frac{2}{n}\Bigl(E\bigl[x_p^2\bigr] + (n-1)E\bigl[x_p x_q\bigr]\Bigr)
+ \frac{1}{n^2}\Bigl(n E\bigl[x_q^2\bigr] + n(n-1) E\bigl[x_r x_q\bigr]\Bigr) \biggr\}\\
&=\frac{1}{n}\sum_{p=1}^n\biggl( \frac{n-2}{n}E\bigl[x_p^2\bigr]
- 2\frac{n-1}{n}E\bigl[x_p x_q\bigr]
+ \frac{1}{n}E\bigl[x_q^2\bigr]
+ \frac{n-1}{n} E\bigl[x_r x_q\bigr] \biggr)\\
&=\frac{1}{n}\sum_{p=1}^n\biggl( \frac{n-1}{n}E\bigl[x_p^2\bigr]
- \frac{n-1}{n}E\bigl[x_p x_q\bigr] \biggr)\\
&=\frac{1}{n}n \cdot \frac{n-1}{n}\Bigl( E\bigl[x_p^2\bigr]
- E\bigl[x_p x_q\bigr] \Bigr)\\
&=\frac{n-1}{n}\Bigl( E\bigl[x_p^2\bigr]
- E\bigl[x_p x_q\bigr] \Bigr)\\
&=\frac{n-1}{n}\Bigl\{ \bigl(\sigma_0^2+\overline{x_0}^2\bigr) - \overline{x_0}^2 \Bigr\}\\
&=\frac{n-1}{n}\sigma_0^2
\end{align*}
となる[1][4].
補助計算
※1. $E[x_i^2]=\sigma_0^2+\overline{x_0}^2$.
※2. $E[x_p x_q]=\overline{x_0}^2$
[証明1]
[証明2](別解)
[証明1] または [証明2] より,$E[x_i^2]=\sigma_0^2+\overline{x_0}^2$ となる.
$X$ の分散 $Var(X)$ は,
\begin{align*}
Var(X)&=E\bigl[(X-\overline{X})^2\bigr]\\
&=E\bigl[(X-E[X])^2\bigr]\\
&=E\bigl[X^2-2XE[X]+E[X]^2\bigr]\\
&=E[X^2]-2E[X]E[X]+E[X]^2\\
&=E[X^2]-E[X]^2\\
\end{align*}
となる[2].これを用いて,求める値は,
\begin{align*}
Var(X)&=E[X^2]-E[X]^2\\
\Leftrightarrow \ \ \ \ \ \ \ \ \ \ \sigma_0^2&=E[x_i^2]-\overline{x_0}^2
\end{align*}
となる[4][5].
[証明2](別解)
分散と期待値の関係は,
\begin{align*}
\frac{1}{n_0}\sum_{i=1}^{n_0}(x_i-\overline{x_0})^2 &= \frac{1}{n_0}\sum_{i=1}^{n_0}(x_i^2-2\overline{x_0}x_i+\overline{x_0}^2)\\
&=\Bigl(\frac{1}{n_0}\sum_{i=1}^{n_0}x_i^2\Bigr)
- 2\overline{x_0}\Bigl(\frac{1}{n_0}\sum_{i=1}^{n_0}x_i\Bigr)
+ \frac{1}{n_0}n_0 \cdot \overline{x_0}^2\\
&=\Bigl(\frac{1}{n_0}\sum_{i=1}^{n_0}x_i^2\Bigr)
- \overline{x_0}^2\\
&=E[x_i^2] - \overline{x_0}^2\\
\Leftrightarrow \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \sigma_0^2&=E[x_i^2]-\overline{x_0}^2
\end{align*}
と表される[3].
[証明1] または [証明2] より,$E[x_i^2]=\sigma_0^2+\overline{x_0}^2$ となる.
※2. $E[x_p x_q]=\overline{x_0}^2$
[証明]
共分散と期待値の関係は,
\begin{align*}
\sigma_{XY}&=Cov(X, Y)\\
&= E[(X-\overline{X})(Y-\overline{Y})]\\
&= E[(X-E[X])(Y-E[Y])]\\
&= E[XY-XE[Y]-E[X]Y+E[X]E[Y]]\\
&= E[XY]-E[X]E[Y]-E[X]E[Y]+E[X]E[Y]\\
&= E[XY]-E[X]E[Y]
\end{align*}
と表される[5].ここで,ランダムサンプリングのとき,$X$ と $Y$ は独立であるから,共分散 $\sigma_{XY}=0$ となる.したがって,
\begin{align*}
0 &= E[XY]-E[X]E[Y]\\
\Leftrightarrow E[XY] &= E[X]E[Y]
\end{align*}
となる.これを用いて,求める関係式は,
\begin{align*}
E[XY] &= E[X]E[Y]\\
\Leftrightarrow E[x_p x_q] &= E[x_p]E[x_q]\\
&= \overline{x_0}^2
\end{align*}
と導出される.
最終的に,標本分散を $\frac{n}{n-1}$ 倍した,不偏分散 $\sigma_u^2$ の期待値は, \begin{align*} E\bigl[\sigma_u^2\bigr] &=E\biggl[\frac{n}{n-1} \cdot \sigma^2\biggr]\\ &=E\biggl[\frac{n}{n-1} \cdot \frac{1}{n}\sum_{p=1}^n(x_p-\overline{x})^2\biggr]\\ &=\frac{n}{n-1} \cdot \frac{n-1}{n}\sigma_0^2\\ &=\sigma_0^2 \end{align*} となり,母分散 $\sigma_0^2$ と一致する.
解釈
数式の解釈について,サンプル数が有限の場合 (特に,サンプル数が極端に少ない場合),母分散の範囲に当たりをつけるには,分散を広めに見積もる必要がある.$\frac{n}{n-1}$ 倍は,標本分散の期待値と母分散を比較して,どの程度範囲を広げれば母分散の範囲を指示できるか,を計算した値と考えられる.
References
[1] Variance#Sample_variance - Wikipedia - 2018年07月21日閲覧
[2] Variance#Definition - Wikipedia - 2018年07月21日閲覧
[3] Variance#Population_variance - Wikipedia - 2018年07月21日閲覧
[4] 不偏標本分散の意味とn-1で割ることの証明 - 高校数学の美しい物語 - 2018年07月21日閲覧
[5] 期待値と分散に関する公式一覧 - 高校数学の美しい物語 - 2018年07月21日閲覧
[2] Variance#Definition - Wikipedia - 2018年07月21日閲覧
[3] Variance#Population_variance - Wikipedia - 2018年07月21日閲覧
[4] 不偏標本分散の意味とn-1で割ることの証明 - 高校数学の美しい物語 - 2018年07月21日閲覧
[5] 期待値と分散に関する公式一覧 - 高校数学の美しい物語 - 2018年07月21日閲覧
0 件のコメント:
コメントを投稿