機械学習勉強会 20170602

created at 2017/06/02 01:33:08
統計学入門 (基礎統計学Ⅰ)

統計学入門 (基礎統計学Ⅰ)

  • 東京大学教養学部統計学教室
  • 東京大学出版会

今は統計学入門
週一で1時間程度各自でもくもくして、章末問題で同期を取るという方法でやってみている。

今回の内容

第2章 1次元のデータ

  • 記述統計学 (descriptive statistics)
    • データを正しく効率的に読む方法
    • 観測対象の各個体を観察して得られたデータを整理・要約する

2.1 度数分布とヒストグラム

  • 度数分布表
    • 観測値の取り得る値を階級 (class)に分けて、それぞれの階級に観測値がいくつかるかという度数 frequencyを数えた表
    • 階級値: それぞれの階級を代表する値。各階級の上限値と下限値の中間値が一般的
    • 相対度数 (relative frequency): 観測値の総数に対する各階級の観測値数の割合
  • ヒストグラム (histogram)
    • 度数分布表を棒グラフにしたもの
    • 双峰型 (bimodal): ヒストグラムで峰が2つあるような分布。男女の身長を一緒にグラフにした場合など
    • 単峰型 (unimodal): 峰が1つの分布
    • 層別: データのグループ分け。男女が混ざった身長は双峰型になるが、性別による層別化を行いうと単峰型になる。
  • 度数分布を作るとき、階級数と階級幅に注意する
    • スタージェスの公式が参考になる
  • 測定 (measurement) の尺度 (scales)
    • 名義尺度 (nominal scale): ある個体が他とは異なるか同一かという判断基準。男、女や未婚、既婚、死別、離婚、など。
    • 順序尺度 (ordinal scale): ある個体が他より「大きい」、他より「良い」などといえる判断基準。非常に悪い、悪い、普通、良い、非常に良い、など。
    • 間隔尺度 (interval scale): ある個体は他よりもある単位によって〜だけ多い、といえる判断基準。℃、時刻など。
    • 比尺度 (ratio scale): ある個体は他よりある単位によって〜倍だけ多い、といえる判断基準。身長、体重、絶対温度など。

2.2 代表値

  • 代表値 (averages): 分布を代表する値
    • 平均値、中央値、最頻値が有名
    • 平均 (mean)
      • 算術平均 (arithmetic mean): 相加平均。普通の平均
      • 幾何平均 (geometric mean): 相乗平均。平均成長率など
      • 調和平均 (harmonic mean): 逆数の算術平均の逆数。平均速度など
      • 平均はデータの重心
    • 中央値 (median)
      • 50%パーセンタイル
    • 最頻値 (mode)
      • 分布の峰に対応する値

まとめ、所感

  • 尺度の分類とか知らなかったので、名前を知れたのはとても良かった
  • 毎回このあたりはまだ理解できる

次回

P35 2.3 散らばりの尺度から