記述統計のはじめ方：平均・中央値・標準偏差を読む

記述統計とは

記述統計は、データ全体の特徴を「要約して把握する」ための考え方です。
まずは次の3つが読めれば十分です。

平均は便利ですが、極端に大きい値（外れ値）があると引っ張られます。
そのため、収入や購買額のように偏りが出やすいデータでは中央値も確認します。

指標	強み	注意点
平均	計算しやすい	外れ値の影響を受けやすい
中央値	外れ値に強い	全体の合計感はわかりにくい

平均が同じでも、データの散らばり方は違います。
標準偏差が大きいほど、値の差が大きいことを意味します。

項目ごとに単位が違うと比較しづらいため、標準化を使います。

 $z = \frac{x - \mu}{\sigma}$

これで、平均0・標準偏差1の尺度にそろえて比較できます。

データの行数、欠損値の有無、最小値・最大値を確認して全体像をつかみます。

差が大きい場合は偏りや外れ値の存在を疑います。

値の散らばり具合を知り、データの特性を理解します。

異なる単位のデータを比較する際に、zスコアで尺度を揃えます。

記述統計は、モデルを作る前の「地図づくり」です。
平均・中央値・標準偏差をセットで読む習慣をつけると、データの見え方が一気に安定します。