機械学習勉強会 20170525

created at 2017/05/26 00:12:32
統計学入門 (基礎統計学Ⅰ)

統計学入門 (基礎統計学Ⅰ)

  • 東京大学教養学部統計学教室
  • 東京大学出版会

今日から統計学入門のもくもくを始めた。
この本は週一で1時間程度各自でもくもくして、章末問題で同期を取るという方法でやってみている。

今日の内容

  • 第1章
    • 1.1 統計学とは
      • 1.1.1 統計的なものの見方
        • 近代統計学
          • 記述統計学: すべてを丹念に調べて規則性から法則を見出す
          • 統計的推測: 記述統計学 + 確率論
        • 全数調査: 国勢調査のように全体を調べる
      • 1.1.2 近代統計学の成立
        • 統計的推測: 母集団に対する推定の理論と仮説検定
          • 標本と母集団を明確に区別し、確率論を本格的に用いるようになった
          • 標本分布は厳密に計算できる
          • 母集団の仮説から計算された標本分布は矛盾するかどうか(その仮定された母集団から標本がピックアップされる可能性がどれぐらいあるか)
        • 標本と母集団のギャップを埋めるのが「確率」
    • 1.2 統計データと統計手法
      • 1.2.1 量的データと質的データ
        • 量的データ: 長さや重さなど、数値で測定できるデータ
        • 質的データ: 性別や天気など、カテゴリや状態のデータ
        • 統計学では量的データと質的データどちらに対する手法も存在する
      • 1.2.1 1次元データと多次元データ
        • 1次元データ: 1つのサンプルに対して1つの観測値だけが与えられるようなデータ
        • 多次元データ: 1つのサンプルに対して2つ以上の観測値があるデータ
      • 1.2.3 時系列データとクロス・セクション・データ
        • 時系列データ: 同一の対象の異なった時点での観測値からなるデータ
        • クロスセクション・データ: いくつかの異なった対象について調査・実験を行った観測値からなるデータ
    • 1.3 統計データの分析プロセス
      • 統計データの分析はデータ収集から始まるというのは誤り
      • 何を対象に、何を分析するか、を考えることから始める
      • 原データ(生データ): 実験や調査から得られた生のデータ
      • 統計資料: 原データに何らかの統計処理を施したあとの調査結果からなる統計データ
        • 第一義統計: 統計資料を作成する目的で調査を行った原データから作られる統計資料
        • 第二義統計(業務統計): 統計資料の作成が目的ではない原データから集計して得られた統計資料
      • 二次統計(加工統計): 統計資料を加工して得られた統計資料
      • 統計資料を使用する場合は定義に注意する
        • 誰が行ったものか
        • 全数調査か標本調査か

まとめ、所感

  • 第1章は統計学の成り立ちや統計学とは何か、統計データとは何か、という説明
  • 登場する言葉がしっかりと定義されていてわかりやすい
  • 歴史みたいな部分は流し読み
  • 練習問題は日本の人口を調べる、みたいな問題だが、色々資料を探して眺めるのは楽しかった

次回

P17から