機械学習勉強会 20170629

created at 2017/07/19 23:30:53
統計学入門 (基礎統計学Ⅰ)

統計学入門 (基礎統計学Ⅰ)

  • 東京大学教養学部統計学教室
  • 東京大学出版会

今は統計学入門
週一で1時間程度各自でもくもくして、章末問題で同期を取るという方法でやってみている。

今回の内容

第3章 2次元のデータ

3.1 2次元のデータとは

  • 多次元データ (multi-dimensional data)
    • 複数個の変数を観測したデータ
    • $p$個の変数をとるとき、$p$次元データという
    • 多次元データの統計学は変数間の関係 (relation)を扱うもので、1次元のデータの分析を$p$回繰り返すものではない
  • 相関 (correlation): $x$と$y$を対等に見る見方や方法。$x$と$y$の間の相互関係を扱う
  • 回帰 (regression): $x$から$y$を見る。$x$から$y$が決定される様子や程度を扱う

3.2 散布図と分割表

  • 散布図 (scattergram)
    • $(x_i, y_i)$のデータの両方が量的データである場合、横軸に$x$、縦軸に$y$をとってプロットした図
  • 相関関係: 2つの変数間の関係
    • 散布図で直線関係に近い傾向があるとき「相関関係がある」という
    • 単調増加的な傾向は「正の相関関係がある」。単調減少的な傾向は「負の相関関係がある」
    • 直線度合いが強いと「強い相関関係がある」。広がりがあると「弱い相関関係がある」
  • 分割表 (contingency table)
    • 片方あるいは両方が質的データの場合に使う
    • クロス表 (cross table)とも呼ばれる
    • 片方が量的データの場合は適当な階級に分ける
    • 両方が量的データで階級に分けて表にしたものは相関表と呼ばれる

3.3 相関係数

3.3.1 積率相関係数

  • 相関係数 (correlation coefficient): 相関の程度を示す指標
  • ピアソンの積率相関係数 (product-moment correlation coefficient)
    • $r_{xy}=\frac{\sum(x_i-\overline{x})(y_i-\overline{y})/n}{\sqrt{\sum(x_i-\overline{x})^2/n}\sqrt{\sum(y_i-\overline{y})^2/n}}=\frac{\sum(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum(x_i-\overline{x})^2}\sqrt{\sum(y_i-\overline{y})^2}}$
    • 常に$-1\leq r_{xy}\leq1$
    • 共分散 (covariance): 偏差積の平均$C_{xy}=\sum(x_i-\overline{x})(y_i-\overline{y})/n$
    • $r_{xy}=\pm1$をとるのは$(x_i, y_i)$がすべて$y_i=\pm\frac{S_y}{S_x}(x_i-\overline{x})+\overline{y}$の直線にのるとき
    • 正の完全相関: $r_{xy}=+1$のとき
    • 負の完全相関: $r_{xy}=-1$のとき

3.3.2 相関関係と因果関係

  • 因果関係 (causality)
    • 相関係数が高いと強い相関関係があるということだが、必ずしも因果関係があるということではない
    • 因果関係であっても相関関係にない場合もある

3.3.3 みかけ上の相関と偏相関係数

  • みかけ上の相関 (spurious correlation)
    • 昼間人口をはさんで飲食店数と金融機関店舗数の間に生じるような相関関係
  • 偏相関係数 (partial correlation coefficient)
    • 変数が3つあるとき、1つの変数を除いたあとの残りの変数間の相関係数
    • $r_{12\cdot3}=\frac{r_{12}-r_{13}r_{23}}{\sqrt{1-r_{13}^2}\sqrt{1-r_{23}^2}}$

3.3.4 層別と相関

  • 層別 (stratification): データをグループ分けすること
    • 層別したら相関が現れることがある

3.3.5 順位相関係数

  • 順位相関係数 (rank correlation coefficient)
    • 2つの大小関係がある質的変数間の相関を示す指標
    • スピアマン (C.Spearman)の順位相関係数
    • ケンドール (M. G. Kendall)の順位相関係数

3.3.6 時系列と自己相関

  • 時系列 (time series)
    • 時間的に観測されたデータ $x_1, x_2, \dots, x_n$
  • 自己相関係数 (auto-correlation coefficient)系列相関係数 (serial correlation coefficient)
    • 系列の異時点間の相関関係を示す指標
    • 遅れ (lag) 1の自己相関係数: $r_1=\frac{\sum_{i=1}^{n-1}(x_i-\overline{x})(x_{i+1}-\overline{x})/(n-1)}{\sum_{i=1}^n(x_i-\overline{x})^2}$
    • $r_1<0$なら各時点の傾向は1時点先には反転する様子が見られることを示す
    • 遅れ$h$の自己相関係数は: $r_h=\frac{\sum_{i=1}^{n-h}(x_i-\overline{x})(x_{i+h}-\overline{x})/(n-h)}{\sum_{i=1}^n(x_i-\overline{x})^2}$
    • コレログラム (correlogram): 自己相関係数をグラフにしたもの

所感

  • TeXが久しぶりで楽しくて書きすぎた感が :scream:

次回