今回の内容

第5章確率変数

5.1 確率変数と確率分布

乱数 (random number, random digits): 起こる確率が等しいことが理論的に保証されている0から9までの数字
確率変数 (random variable): それがとる各値に対してそれぞれ確率が与えられている変数
離散型 (discrete type): 可算集合 $\{x_1, x_2, \dots\}$の中の値をとる確率変数
確率分布 (probability distribution)
- 確率変数$X$があるとき、$P(X=x_k) = f(x_k)$ で表される$f$を確率分布という
- $f(x_k) \geq 0, (k=1, 2, \dots) かつ \sum_k f(x_k) = 1$を満たす
- 離散型の確率分布 (p. d. of discrete type)
連続型 (continuous type)
- 連続値をとる確率変数
- $P(a\geq X \geq b) = \int_a^bf(x)dx$で表される
- ただし、$すべてのxに対しf(x)\geq 0 かつ \int_{-\infty}^\infty f(x)dx=1$を満たす
- $f(x)$を$X$の**確率密度関数 (probability density function)**という
- ある一点の確率は$P(X=a) = 0$となる
指数分布 (exponential distribution)
- $x\geq 0$のとき$f(x)=\lambda e^{-\lambda x}$、$x < 0$のとき$f(x) = 0$
- 待ち時間は指数分布に従う
  - ある災害が起こってから次の災害が起こるまでの時間$X$や、電球が偶発的に切れるまでの寿命$X$など
一様分布 (uniform distribution)
- $0 \leq x \leq 1$のとき$f(x)=1$, それ以外のとき$f(x)=0$
- 区間$[0, 1]$の任意の値を等しくとる一様乱数 (uniform random number)
累積分布関数 (cumulative distribution function)
- 確率変数$X$に対して$X$が$x$以下の確率
- $F(x)=P(X\leq x)$
- $F(x)=\int_{-\infty}^x f(u) du$
- $F'(x)=f(x)$
- 離散型の場合は$F(x)=\sum_{u\leq x}f(u)$
- 常に次の3つの性質をもつ
  - 広義単調増加: $x_1 < x_2$ならば$F(x_1) \leq F(x_2)$
  - 範囲: $x \rightarrow \infty$のとき$F(x)\rightarrow 1$、$x\rightarrow -\infty$のとき$F(x)\rightarrow 0$
  - 右連続: 各点$x$で$\varepsilon\downarrow 0$のとき$F(x+\varepsilon)\rightarrow F(x)$
モード (mode): $f(x)$を最大にする$x=x_0$
メディアン (median): $P(X\leq x_m)=\frac{1}{2}$となる$x_m$

5.2 確率変数の期待値と分散

期待値 (expectation)
- 平均、重心
- 確率変数$X$の期待値を$E(X)$と書く
- 離散型のとき、$E(X)=\sum_x xf(x)$
- 連続型のとき、$E(X)=\int_{-\infty}^\infty xf(x) dx$
- $E(X)=\mu$で表すこともある
$X$の関数$\phi(X)$に対する期待値の定義
- $E(\phi(X))=\sum_x \phi(x)f(x)$
- $E(\phi(X))=\int_{-\infty}^\infty \phi(x)f(x) dx$
期待値の演算の性質
- $E(c)=c$
- $E(X+c)=E(X)+c$
- $E(cX)=cE(X)$
- $E(X+Y)=E(X)+E(Y)$
分散 (variance)
- ばらつき具合
- 確率変数$X$の分散を$V(X)$と書く
- $V(X)=E((X-\mu)^2)=E(X^2)-(E(X))^2$
- 離散型のとき、$V(X)=\sum_x (x-\mu)^2f(x)$
- 連続型のとき、$V(X)=\int_{-\infty}^\infty (x-\mu)^2f(x) dx$
- $V(X)=E(X^2)-(E(X))^2$
- $\sigma^2$と表すことが多い
標準偏差 (standard deviation)
- 分散の平方根 $D(X)=\sqrt{V(X)}$
- $\sigma$と表すことが多い
分散の演算の性質
- $V(c)=0$
- $V(X+c)=V(X)$
- $V(cX)=c^2V(X)$
標準化
- $Z=\frac{X-E(X)}{\sqrt{V(X)}}$とすると期待値と分散の性質から
- $E(Z)=0$
- $V(Z)=1$
- この変換を標準化といい、$Z$を標準化変数という

5.3 モーメントとモーメント母関数

歪度 (skewness)
- 歪度係数とも
- 確率分布の非対称性の指標
- $\alpha_3 = \frac{E((X-\mu)^3)}{\sigma^3}$
- $\alpha_3>0$ならば右の裾が長い
- $\alpha_3<0$ならば左の裾が長い
- $|\alpha_3|$が程度を表す
- $\beta_3$と書くこともある
尖度 (kurtosis)
- 超過係数 (coefficient of excess)
- $\alpha_4=\frac{E((X-\mu)^4)}{\sigma^4}$としたとき、$\alpha_4-3$のことをいう
- 正規分布は$\alpha_4=3$
- $\alpha_4 >3$なら正規分布より尖っている
- $\alpha_4 < 3$なら正規分布より丸い
- $\beta_4$と書くこともある
モーメント (moment)
- 積率ともいう
- $\mu_r=E(X^r)$: $X$の(原点のまわりの)$r$次のモーメント
- $\mu'_r=E((X-\mu)^r)$: $X$の期待値のまわりの$r$次のモーメント
- $\alpha_r=E(\{\frac{X-\mu}{\sigma}\}^r)$: $X$の$r$次の標準化モーメント
モーメント母関数 (moment generating function)
- すべての次数のモーメントを生成する
- すべての次数のモーメントが決まれば確率分布は一意に定まる
- $M_X(t)=E(e^{tX})$
- 離散型: $M_X(t)=\sum_xe^{tx}f(x)$
- 連続型: $M_X(t)=\int_{-\infty}^\infty e^{tx}f(x)dx$
- $M_X^{(r)}(0)=\mu_r$: モーメント母関数の$r$階導関数から$r$次のモーメントが求まる

5.4 チェビシェフの不等式

チェビシェフの不等式 (Chebyshev’s inequality)
- いかなる確率変数$X$に対しても$P(|X-\mu|\geq k\sigma)\leq\frac{1}{k^2}, ;(k>0)$が成り立つ
- 確率分布がわからなくても、期待値と分散さえわかれば確率の値が不等式で得られる

5.5 確率変数の変換

練習問題

https://github.com/Wondershake/ml-statistics-intro/issues/8

所感

自分でちゃんと読んでるからか、教科書がいいのか、昔より理解できてる気がする
輪読形式はただのもくもくより負荷は強くなるが、その分力にはなってる感じがあるので良い 💪

次回

第6章確率分布

https://github.com/Wondershake/ml-statistics-intro/issues/12

nownab.log

統計学入門第5章確率変数

今回の内容

第5章確率変数

5.1 確率変数と確率分布

5.2 確率変数の期待値と分散

5.3 モーメントとモーメント母関数

5.4 チェビシェフの不等式

5.5 確率変数の変換

練習問題

所感

次回

統計学入門 第5章 確率変数

今回の内容

第5章 確率変数

5.1 確率変数と確率分布

5.2 確率変数の期待値と分散

5.3 モーメントとモーメント母関数

5.4 チェビシェフの不等式

5.5 確率変数の変換

練習問題

所感

次回

統計学入門第5章確率変数

第5章確率変数