Python
Jupyterで学ぶPythonデータ前処理入門
分析前に必ず行うデータ前処理を、Jupyterとpandasを使って初心者向けにステップ形式で紹介します。
はじめに
データ分析で最初に時間がかかるのは、実はモデル作りよりも前処理です。
この記事では、Jupyterでよく行う前処理の流れを体験します。
1. データを読み込む
import pandas as pd
df = pd.read_csv("sales.csv")
display(df.head())
print(df.shape)
最初に head() と shape を見る癖をつけると、後のミスを減らせます。
2. 欠損値を確認する
print(df.isnull().sum())
欠損が多い列は、以下のどれかを選びます。
- 削除する
- 平均値や最頻値で補完する
- 「不明」として別カテゴリ化する
3. 型をそろえる
df["date"] = pd.to_datetime(df["date"])
df["price"] = pd.to_numeric(df["price"], errors="coerce")
4. 基本的な特徴量を追加する
df["month"] = df["date"].dt.month
df["amount"] = df["price"] * df["quantity"]
最初は「月」「曜日」「金額」など単純な特徴量で十分です。
関連記事
Python
Pythonで始めるデータ分析入門pandasとmatplotlibを使った基本的なデータ分析の手法を、実際のコード例とともに解説します。まとめ
head()/shape()/isnull()を最初に確認- 欠損値処理と型変換は早めに実施
- 単純な特徴量追加から始める
前処理が安定すると、その後の可視化や機械学習の結果も安定しやすくなります。