nownab.log | 統計学入門 第8章 大数の法則と中心極限定理
- 東京大学教養学部統計学教室
- 東京大学出版会
機械学習勉強会として今は統計学入門をやっている。 週一でやっていて、今週から輪読形式で進めてみることになった。
また、勉強会で書いたコードや疑問点などをまとめるためにGitHubのレポジトリを活用している。 Wondershake/ml-statistics-intro: 基礎統計学 I 統計学入門 (東京大学出版会)
今回の内容
- 記述統計学 (descriptive statistics)
- 2, 3章でやったもの
- 分析対象とする集団の属性について完全に知ることができる場合
- 標本抽出: 分析対象となるサンプルをランダムに選ぶ
- 全数調査あるいは(悉皆調査): 集団全体を調査する
9.1 母集団と標本
- われわれが知りたいのは**母集団 (population)**だが、母集団を直接知るのは難しい場合がある
- 日本人の意識調査を行う場合は日本人全体が母集団
- 統計的推測 (statistical inference)
- 母集団から一部を選び出し
- それを分析し
- 母集団について推測する
- 標本 (sample): 分析のために母集団から選び出された要素
- 標本抽出 (sampling): 標本を選び出すこと
9.1.1 母集団と母集団分布
- 母集団分布 (population distribution): 母集団の分布。これを知ればよい
- 標本$X_i$は母集団分布$f(x)$に従う独立な確率変数と考えられる
- 統計学では無限母集団を考えることが多いので、ヒストグラムや相対頻度よりも確率分布$f(x)$を考えることが多い
9.1.2 母集団分布の母数
- 母集団分布が理論的または経験的にある知られた確率分布(正規分布やポアソン分布)だとわかっている場合、その確率分布のパラメータさえわかれば母集団分布のすべてを知ることができる
- 正規分布なら$\mu$と$\sigma^2$、ポアソン分布なら$\lambda$
- このパラメータを**母数 (parameter)**という
- このような場合をパラメトリックという
- ノン・パラメトリック (nonparametric)
- いくつかのパラメータで母集団分布を決定することができない場合
- 平均、メディアン、モード、分散、レンジ、歪度、尖度などを考える
9.1.3 標本の抽出
- 復元抽出 (sampling with replacement): 抽出した要素を再び母集団に戻し、その後の抽出の対象とする
- 非復元抽出 (sampling without replacement): 抽出した要素を戻さない。本書ではこちらのみを扱う
- 母集団の大きさ$N$が標本の大きさ$n$に比べて十分大きい場合はほとんど差がない
- $N$個の母集団から$n$個の標本の可能な選び方の総数は
- ${}_NC_n=\frac{N!}{n!(N-n)!}$
- 単純ランダム・サンプリング (単純無作為抽出)
- 母集団の各要素が標本に選ばれる確率を等しく$\frac{n}{N}$とする
- 本書ではこの抽出方法のみを考える
9.2 母数と統計量
9.2.1 統計量
- 母平均 (population mean)
- 代表的な母数
- $/mu=\int_{-\infty}^\infty xf(x)dx$あるいは$\mu=\sum_xxf(x)$
- 母分散 (population variance) $\sigma^2$も同じように定まる
- 標本平均
- $\bar{X}=\frac{X_1+X_2+\dots+X_n}/n$
- 母平均を直接知るのは難しいから標本平均を用いる
- $E(\bar{X})=\mu$
- 大数の法則から$n$が大きくなるに連れ$\bar{X}\rightarrow\mu$
- 統計量 (statistic)
- 標本平均のように、標本を要約して母集団の母数の推測に使われるもの
- 標本の平均、分散、標準偏差、メディアン、最小値、最大値、相関係数など
- $t(X_1, \dots, X_n)$で表せる
- この確率分布は母集団分布から求められる
- 統計量の値の出方から母集団分布が求められる
- 統計量の確率分布をその統計量の**標本分布 (sampling distribution)**という
9.2.2 標本平均と標本分散
- 母数でも特に重要なのが母平均$\mu$と母分散$\sigma^2$
- 標本平均 (sample mean)
- $\bar{X}=\frac{X_1+X_2+\dots+X_n}{n}$
- $E(\bar{X})=\mu$
- $V(\bar{X})=\frac{\sigma^2}{n}$
- 標本分散 (sample variance)
- $s^2=\frac{1}{n-1}\{(X_1-\bar{X})^2+(_2-\bar{X})^2+\dots+(X_n-\bar{X})^2\}$
- $E(s^2)=\sigma^2$
- 母分散に対して偏りがないので**不偏分散 (unbiased variance)**という
- $S^2=\frac{1}{n}\{(X_1-\bar{X})^2+(_2-\bar{X})^2+\dots+(X_n-\bar{X})^2\}$は$E(S^2)=\frac{n-1}{n}\sigma^2$となり偏る
- $n-1$には**自由度 (degree of freedom)**という名前がついている
9.3 統計量の標本分布
9.3.1 標本分布の役割
9.3.2 標本和の標本分布
- 標本和$X_1+X_2+\dots+X_3$や標本平均$\bar{X}$の標本分布は母集団分布に依存する
- パラメトリックで分布が再生性を持っていれば簡単に求められる
- 二項分布
- ポアソン分布
- 正規分布
- など
- 漸近的 (asymptotic)
- $n\rightarrow\infty$のとき成り立つこと
- 標本分布を求めるためには重積分が必要なので中心極限定理によって近似的に分布を求めることが多い
- 標本平均$\bar{X}$の漸近分布が$N(\mu, \frac{\sigma^2}{n})$に従う
9.4 有限母集団と有限母集団修正
- 母集団の大きさ$N$が大きくない場合や$n/N$が大きい場合、有限母集団を考えた修正が必要
- $V(\bar{X})=\frac{N-n}{N-1}\frac{\sigma^2}{n}$
- 有限母集団修正
練習問題
第9章 標本分布 · Issue #17 · Wondershake/ml-statistics-intro
所感
- よく聞くノン・パラメトリックが何かを知ることができてよかった
次回
第10章 正規分布からの標本