- 東京大学教養学部統計学教室
- 東京大学出版会
今は統計学入門。 週一で1時間程度各自でもくもくして、章末問題で同期を取るという方法でやってみている。
今回の内容
第2章 1次元のデータ
- 記述統計学 (descriptive statistics)
- データを正しく効率的に読む方法
- 観測対象の各個体を観察して得られたデータを整理・要約する
2.1 度数分布とヒストグラム
- 度数分布表
- 観測値の取り得る値を階級 (class)に分けて、それぞれの階級に観測値がいくつかるかという度数 frequencyを数えた表
- 階級値: それぞれの階級を代表する値。各階級の上限値と下限値の中間値が一般的
- 相対度数 (relative frequency): 観測値の総数に対する各階級の観測値数の割合
- ヒストグラム (histogram)
- 度数分布表を棒グラフにしたもの
- 双峰型 (bimodal): ヒストグラムで峰が2つあるような分布。男女の身長を一緒にグラフにした場合など
- 単峰型 (unimodal): 峰が1つの分布
- 層別: データのグループ分け。男女が混ざった身長は双峰型になるが、性別による層別化を行いうと単峰型になる。
- 度数分布を作るとき、階級数と階級幅に注意する
- スタージェスの公式が参考になる
- 測定 (measurement) の尺度 (scales)
- 名義尺度 (nominal scale): ある個体が他とは異なるか同一かという判断基準。男、女や未婚、既婚、死別、離婚、など。
- 順序尺度 (ordinal scale): ある個体が他より「大きい」、他より「良い」などといえる判断基準。非常に悪い、悪い、普通、良い、非常に良い、など。
- 間隔尺度 (interval scale): ある個体は他よりもある単位によって〜だけ多い、といえる判断基準。℃、時刻など。
- 比尺度 (ratio scale): ある個体は他よりある単位によって〜倍だけ多い、といえる判断基準。身長、体重、絶対温度など。
2.2 代表値
- 代表値 (averages): 分布を代表する値
- 平均値、中央値、最頻値が有名
- 平均 (mean)
- 算術平均 (arithmetic mean): 相加平均。普通の平均
- 幾何平均 (geometric mean): 相乗平均。平均成長率など
- 調和平均 (harmonic mean): 逆数の算術平均の逆数。平均速度など
- 平均はデータの重心
- 中央値 (median)
- 50%パーセンタイル
- 最頻値 (mode)
- 分布の峰に対応する値
まとめ、所感
- 尺度の分類とか知らなかったので、名前を知れたのはとても良かった
- 毎回このあたりはまだ理解できる
次回
P35 2.3 散らばりの尺度から