- 東京大学教養学部統計学教室
- 東京大学出版会
機械学習勉強会として今は統計学入門をやっている。 週一でやっていて、今週から輪読形式で進めてみることになった。
また、勉強会で書いたコードや疑問点などをまとめるためにGitHubのレポジトリを活用している。 Wondershake/ml-statistics-intro: 基礎統計学 I 統計学入門 (東京大学出版会)
今回の内容
- 正規標本論: 正規母集団から得られた標本に基づく統計量の標本分布を計算するためのもの
10.1 正規分布の性質
- 統計分析を行うとき正規分布を仮定する理由
- 慎重の分布や実験誤差の分布などわれわれが分析対象とする現象は正規分布で表せるものが多い
- 変数の変換によって正規分布で表せるものも多い
- 多くの統計量は確率変数の和であり中心極限定理によって正規分布とみなせる。正規母集団なら結果を近似的にそのまま使える
- 数学的な扱いが容易
- $X$が$N(\mu, \sigma^2)$に従うとき$aX+b$は$N(a\mu+b, a^2\sigma^2)$に従う
- $X, Y$がそれぞれ$N(\mu_1, \sigma_1^2), N(\mu_2, \sigma_2^2)$に従うとき、$X+Y$は$N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)$に従い、$X-Y$は$N(\mu_1-\mu_2, \sigma_1^2+\sigma_2^2)$に従う
10.2 分散が既知のときの標本平均の標本分布
- パーセント点 (percentage point)
- $N(0, 1)$においてその点より上側の確率が$100\alpha%$となる点
- $Z_\alpha$と書く
- 標本平均$\bar{X}$の標準偏差は$\frac{\sigma}{\sqrt{n}}$である
- $n$が増加するに従い正確な推定値となる
- 推定の誤差は$\frac{1}{\sqrt{n}}$のオーダーでしか減少しない
- 反覆数の原理
- 標本平均を取ると単独の測定よりも正確さが増す
- 幾何平均にはない性質
10.3 標本分散の標本分布
- $\chi^2$分布
- $Z_1, Z_2, \dots, Z_k$を独立な標準正規分布$N(0, 1)$に従う確率変数とする
- $\chi^2=Z_1+Z_2+\dots+Z_k$
- 確率変数$\chi^2$が従う確率分布を自由度$k$の$\chi^2$分布という
- $\chi^2(k)$で表す
- $\chi^2(k)$の上側確率が$\alpha$となる値を$\chi^2_\alpha(k)$と書く
10.4 分散が未知のときの標本平均の標本分布
- t統計量 (Student’s t-statistic)
- $t=\frac{\bar{X}-\mu}{\sqrt{s^2/n}}$
- t分布
- 2つの確率変数$Y$と$Z$が次の条件を満たすものとする
- $Z$は標準正規分布に従う
- $Y$は$\chi^2(k)$に従う
- $Z$と$Y$は独立である
- $t=\frac{Z}{\sqrt{Y/k}}$とすると、$t$が従う確率分布を自由度$k$の$t$分布という
- $t(k)$で表す
- 2つの確率変数$Y$と$Z$が次の条件を満たすものとする
- $t=\frac{\bar{X}-\mu}{\sqrt{s^2/n}}$は$t(n-1)$に従う
- $\bar{X}$の標準偏差$\frac{s}{\sqrt{n}}$を**標準誤差 (standard error)**という
- t分布は(標準)正規分布の代用品
- 密度関数$f(x)$は$x=0$について対称
- $k$が大きい場合(例えば30以上)は標準正規分布とほとんど変わらない
- $k=\infty$のとき標準正規分布と一致する
- $t(k)$の上側確率$100\alpha%$のパーセント点を$t_\alpha(k)$と書く
10.5 2標本問題
- 2標本問題 (two-sample problem): 2種の標本による2母集団の比較を扱う問題
- 母集団分布$N(\mu_1, \sigma_1^2)$に従う大きさ$m$の標本$X_1, \dots, X_m$と$N(\mu_2, \sigma_2^2)$に従う大きさ$n$の標本$Y_1, \dots, Y_n$を考える
10.5.1 標本平均の差の標本分布
- $\mu_1-\mu_2$を分析する
- 分散$\sigma_1, \sigma_2$が既知のとき
- 分散$\sigma_1, \sigma_2$が未知であるが等しいとき
- 分散$\sigma_1, \sigma_2$が未知であり等しいとは限らないとき
- 母分散が既知のとき
- $\bar{X}-\bar{Y}$は$N(\mu_1-\mu_2, \frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n})$に従う
- 母分散は未知であるが等しいとき
- $\sigma_1^2=\sigma_2^2=\sigma^2$
- $\bar{X}-\bar{Y}$は$N(\mu_1-\mu_2, (\frac{1}{m}+\frac{1}{n})\sigma^2)$に従う
- 合併した分散 (pooled variance)
- $s^2=\frac{\displaystyle \sum_{i=1}^{m}(X_i-\bar{X})^2 + \sum_{j=1}^{n}(Y_j-\bar{Y})^2}{m+n-2}=\frac{\displaystyle (m-1)s_1^2+(n-1)s_2^2}{m+n-2}$
- 2標本t統計量 (two-sample t statistic)
- $t=\frac{\displaystyle (\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\displaystyle s\sqrt{\frac{1}{m}+\frac{1}{n}}}$
- 母分散が未知であり等しいとは限らないとき
- 母分散によらない統計量を作ることは出来ない
- ウェルチの近似法
10.5.2 標本分散の比の標本分布
- 標本平均の差の分布を求めるとき、2つの標本分散の相対的な比が手がかりとなる
- F分布
- $\chi^2$分布に従う確率変数の比
- 確率変数$U, V$が次の条件を満たすとする
- $U$は$\chi^2(k_1)$に従う
- $V$は$\chi^2(k_2)$に従う
- $U$と$V$は独立である
- フィッシャーの分散比 $F=\frac{U/k_1}{V/k_2}$
- $F$が従う確率分布を自由度$(k_1, k_2)$のF分布という
- $F(k1, k_2)$で表す
- 母分散が等しいときF分布は標本の分散比 (variance ratio) $F=s_1^2/s_2^2$の標本分布となる
- $t$が$t(k)$に従うとき、$t^2$は$F(1, k)$に従う
10.6 標本相関係数の標本分布
- 2次元正規分布$N((\mu_X, \mu_Y), (\sigma_X^2, \sigma_Y^2))$に従う2次元正規母集団を考える
- 2次元無作為標本$(X_1, Y_2), \dots, (X_n, Y_n)$
- 標本共分散$s_{XY}=\frac{1}{n-1}\sum_{i=1}{n}(X_i-\bar{X})(Y_i-\bar{Y})$
- 標本相関係数$r_{XY}=\frac{s_{XY}}{s_X\cdot s_Y}$
- フィッシャーのz変換 (Fisher’s z-transformation)
- $z=\frac{1}{2}\log\frac{1+r}{1-r}$
- $\eta=\frac{1}{2}\log\frac{1+\rho}{1-\rho}$
- $z$の標本分布が$n$が大きいときに$N(\eta, 1/(n-3))$となる
- $\sqrt{n-3}(z-\eta)$が$N(0, 1)$に従う
練習問題
第10章 正規分布からの標本 · Issue #20 · Wondershake/ml-statistics-intro
所感
- よく聞くtとかカイ二乗とかがなんなのかわかった
次回
第11章 推定