前処理

データをモデルの入力として使用する前の段階として、データを扱いやすい形に加工する必要があります。このような処理を前処理と呼びます。

データサイエンス100本ノックを参考に、このページは構成されています。

特徴量抽出

データ分析、可視化

列への操作

行への操作

結合する

  • merge関数で共通の列を1つ選択し、DataFrameを結合する
  • merge関数で共通の列を複数選択し、DataFrameを結合する

部分一致 (条件に一致するものを抽出する)

  • 前方一致
  • 後方一致
  • 部分一致

ソート(値を並び替える)

  • 並び替え

集計(値を数えたり、統計量を出す)

  • カウント
  • 合計
  • Max/Min
  • 統計量

クエリ

  • 検索結果からのサブクエリ
  • 条件指定でのサブクエリ

サンプリング

  • ランダム
  • 層化

名寄せ

  • 完全一致
  • 変換データ作成

データ分割

  • レコードデータ
  • 時系列データ

日付型の変換

  • datetime型への変換

値を加工する

  • apply()メソッドを使い、値を二値化する。
  • ダミー変換
  • 標準化
  • Min-Max正規化
  • 常用対数化
  • 自然対数化

欠損値

  • 欠損値があるか確認する
  • 欠損のある行を削除する
  • 欠損値を平均値で置き換える