- 東京大学教養学部統計学教室
- 東京大学出版会
機械学習勉強会として今は統計学入門をやっている。 週一でやっていて、今週から輪読形式で進めてみることになった。
また、勉強会で書いたコードや疑問点などをまとめるためにGitHubのレポジトリを活用している。 https://github.com/Wondershake/ml-statistics-intro
今回の内容
第5章 確率変数
5.1 確率変数と確率分布
- 乱数 (random number, random digits): 起こる確率が等しいことが理論的に保証されている0から9までの数字
- 確率変数 (random variable): それがとる各値に対してそれぞれ確率が与えられている変数
- 離散型 (discrete type): 可算集合 $\{x_1, x_2, \dots\}$の中の値をとる確率変数
- 確率分布 (probability distribution)
- 確率変数$X$があるとき、$P(X=x_k) = f(x_k)$ で表される$f$を確率分布という
- $f(x_k) \geq 0, (k=1, 2, \dots) かつ \sum_k f(x_k) = 1$を満たす
- 離散型の確率分布 (p. d. of discrete type)
- 連続型 (continuous type)
- 連続値をとる確率変数
- $P(a\geq X \geq b) = \int_a^bf(x)dx$で表される
- ただし、$すべてのxに対しf(x)\geq 0 かつ \int_{-\infty}^\infty f(x)dx=1$を満たす
- $f(x)$を$X$の**確率密度関数 (probability density function)**という
- ある一点の確率は$P(X=a) = 0$となる
- 指数分布 (exponential distribution)
- $x\geq 0$のとき$f(x)=\lambda e^{-\lambda x}$、$x < 0$のとき$f(x) = 0$
- 待ち時間は指数分布に従う
- ある災害が起こってから次の災害が起こるまでの時間$X$や、電球が偶発的に切れるまでの寿命$X$など
- 一様分布 (uniform distribution)
- $0 \leq x \leq 1$のとき$f(x)=1$, それ以外のとき$f(x)=0$
- 区間$[0, 1]$の任意の値を等しくとる一様乱数 (uniform random number)
- 累積分布関数 (cumulative distribution function)
- 確率変数$X$に対して$X$が$x$以下の確率
- $F(x)=P(X\leq x)$
- $F(x)=\int_{-\infty}^x f(u) du$
- $F'(x)=f(x)$
- 離散型の場合は$F(x)=\sum_{u\leq x}f(u)$
- 常に次の3つの性質をもつ
- 広義単調増加: $x_1 < x_2$ならば$F(x_1) \leq F(x_2)$
- 範囲: $x \rightarrow \infty$のとき$F(x)\rightarrow 1$、$x\rightarrow -\infty$のとき$F(x)\rightarrow 0$
- 右連続: 各点$x$で$\varepsilon\downarrow 0$のとき$F(x+\varepsilon)\rightarrow F(x)$
- モード (mode): $f(x)$を最大にする$x=x_0$
- メディアン (median): $P(X\leq x_m)=\frac{1}{2}$となる$x_m$
5.2 確率変数の期待値と分散
- 期待値 (expectation)
- 平均、重心
- 確率変数$X$の期待値を$E(X)$と書く
- 離散型のとき、$E(X)=\sum_x xf(x)$
- 連続型のとき、$E(X)=\int_{-\infty}^\infty xf(x) dx$
- $E(X)=\mu$で表すこともある
- $X$の関数$\phi(X)$に対する期待値の定義
- $E(\phi(X))=\sum_x \phi(x)f(x)$
- $E(\phi(X))=\int_{-\infty}^\infty \phi(x)f(x) dx$
- 期待値の演算の性質
- $E(c)=c$
- $E(X+c)=E(X)+c$
- $E(cX)=cE(X)$
- $E(X+Y)=E(X)+E(Y)$
- 分散 (variance)
- ばらつき具合
- 確率変数$X$の分散を$V(X)$と書く
- $V(X)=E((X-\mu)^2)=E(X^2)-(E(X))^2$
- 離散型のとき、$V(X)=\sum_x (x-\mu)^2f(x)$
- 連続型のとき、$V(X)=\int_{-\infty}^\infty (x-\mu)^2f(x) dx$
- $V(X)=E(X^2)-(E(X))^2$
- $\sigma^2$と表すことが多い
- 標準偏差 (standard deviation)
- 分散の平方根 $D(X)=\sqrt{V(X)}$
- $\sigma$と表すことが多い
- 分散の演算の性質
- $V(c)=0$
- $V(X+c)=V(X)$
- $V(cX)=c^2V(X)$
- 標準化
- $Z=\frac{X-E(X)}{\sqrt{V(X)}}$とすると期待値と分散の性質から
- $E(Z)=0$
- $V(Z)=1$
- この変換を標準化といい、$Z$を標準化変数という
5.3 モーメントとモーメント母関数
- 歪度 (skewness)
- 歪度係数とも
- 確率分布の非対称性の指標
- $\alpha_3 = \frac{E((X-\mu)^3)}{\sigma^3}$
- $\alpha_3>0$ならば右の裾が長い
- $\alpha_3<0$ならば左の裾が長い
- $|\alpha_3|$が程度を表す
- $\beta_3$と書くこともある
- 尖度 (kurtosis)
- 超過係数 (coefficient of excess)
- $\alpha_4=\frac{E((X-\mu)^4)}{\sigma^4}$としたとき、$\alpha_4-3$のことをいう
- 正規分布は$\alpha_4=3$
- $\alpha_4 >3$なら正規分布より尖っている
- $\alpha_4 < 3$なら正規分布より丸い
- $\beta_4$と書くこともある
- モーメント (moment)
- 積率ともいう
- $\mu_r=E(X^r)$: $X$の(原点のまわりの)$r$次のモーメント
- $\mu'_r=E((X-\mu)^r)$: $X$の期待値のまわりの$r$次のモーメント
- $\alpha_r=E(\{\frac{X-\mu}{\sigma}\}^r)$: $X$の$r$次の標準化モーメント
- モーメント母関数 (moment generating function)
- すべての次数のモーメントを生成する
- すべての次数のモーメントが決まれば確率分布は一意に定まる
- $M_X(t)=E(e^{tX})$
- 離散型: $M_X(t)=\sum_xe^{tx}f(x)$
- 連続型: $M_X(t)=\int_{-\infty}^\infty e^{tx}f(x)dx$
- $M_X^{(r)}(0)=\mu_r$: モーメント母関数の$r$階導関数から$r$次のモーメントが求まる
5.4 チェビシェフの不等式
- チェビシェフの不等式 (Chebyshev’s inequality)
- いかなる確率変数$X$に対しても$P(|X-\mu|\geq k\sigma)\leq\frac{1}{k^2}, ;(k>0)$が成り立つ
- 確率分布がわからなくても、 期待値と分散さえわかれば確率の値が不等式で得られる
5.5 確率変数の変換
練習問題
https://github.com/Wondershake/ml-statistics-intro/issues/8
所感
- 自分でちゃんと読んでるからか、教科書がいいのか、昔より理解できてる気がする
- 輪読形式はただのもくもくより負荷は強くなるが、その分力にはなってる感じがあるので良い 💪
次回
第6章 確率分布
https://github.com/Wondershake/ml-statistics-intro/issues/12