統計学
記述統計のはじめ方:平均・中央値・標準偏差を読む
統計学の最初の一歩として、記述統計の基本指標をどう読み取ればよいかを初心者向けに解説します。
記述統計とは
記述統計は、データ全体の特徴を「要約して把握する」ための考え方です。
まずは次の3つが読めれば十分です。
- 平均: 全体の中心
- 中央値: 並べたときの真ん中
- 標準偏差: ばらつきの大きさ
平均と中央値の使い分け
平均は便利ですが、極端に大きい値(外れ値)があると引っ張られます。
そのため、収入や購買額のように偏りが出やすいデータでは中央値も確認します。
| 指標 | 強み | 注意点 |
|---|---|---|
| 平均 | 計算しやすい | 外れ値の影響を受けやすい |
| 中央値 | 外れ値に強い | 全体の合計感はわかりにくい |
標準偏差でばらつきを見る
平均が同じでも、データの散らばり方は違います。
標準偏差が大きいほど、値の差が大きいことを意味します。
標準化(zスコア)の考え方
項目ごとに単位が違うと比較しづらいため、標準化を使います。
z = \frac{x - \mu}{\sigma}
これで、平均0・標準偏差1の尺度にそろえて比較できます。
最低限の分析手順
1
件数・欠損・範囲を確認する
データの行数、欠損値の有無、最小値・最大値を確認して全体像をつかみます。
2
平均と中央値の差を見る
差が大きい場合は偏りや外れ値の存在を疑います。
3
標準偏差でばらつきを把握する
値の散らばり具合を知り、データの特性を理解します。
4
必要なら標準化して比較する
異なる単位のデータを比較する際に、zスコアで尺度を揃えます。
関連記事
統計学
正規分布の基礎と応用統計学の中心的な概念である正規分布について、その性質、確率密度関数、標準化の方法を解説します。 Python
Pythonで始めるデータ分析入門pandasとmatplotlibを使った基本的なデータ分析の手法を、実際のコード例とともに解説します。まとめ
記述統計は、モデルを作る前の「地図づくり」です。
平均・中央値・標準偏差をセットで読む習慣をつけると、データの見え方が一気に安定します。