DataStudy
Python

Jupyterで学ぶPythonデータ前処理入門

分析前に必ず行うデータ前処理を、Jupyterとpandasを使って初心者向けにステップ形式で紹介します。

はじめに

データ分析で最初に時間がかかるのは、実はモデル作りよりも前処理です。
この記事では、Jupyterでよく行う前処理の流れを体験します。

1. データを読み込む

import pandas as pd

df = pd.read_csv("sales.csv")
display(df.head())
print(df.shape)

最初に head()shape を見る癖をつけると、後のミスを減らせます。

2. 欠損値を確認する

print(df.isnull().sum())

欠損が多い列は、以下のどれかを選びます。

  • 削除する
  • 平均値や最頻値で補完する
  • 「不明」として別カテゴリ化する

3. 型をそろえる

df["date"] = pd.to_datetime(df["date"])
df["price"] = pd.to_numeric(df["price"], errors="coerce")

4. 基本的な特徴量を追加する

df["month"] = df["date"].dt.month
df["amount"] = df["price"] * df["quantity"]

最初は「月」「曜日」「金額」など単純な特徴量で十分です。

関連記事

Python
Pythonで始めるデータ分析入門pandasとmatplotlibを使った基本的なデータ分析の手法を、実際のコード例とともに解説します。

まとめ

  • head() / shape() / isnull() を最初に確認
  • 欠損値処理と型変換は早めに実施
  • 単純な特徴量追加から始める

前処理が安定すると、その後の可視化や機械学習の結果も安定しやすくなります。

関連記事