データをモデルの入力として使用する前の段階として、データを扱いやすい形に加工する必要があります。このような処理を前処理と呼びます。
データサイエンス100本ノックを参考に、このページは構成されています。
特徴量抽出
- 特徴量
- 特徴量の関係性を把握する
- K-Means
- 次元の削減を行う
データ分析、可視化
列への操作
行への操作
- queryメソッドで条件にみたすデータを抽出する
- 論理演算子&を使い、複数の条件でqueryメソッドで抜き出す。
- 論理演算子|を使い、複数の条件でqueryメソッドで抜き出す。
- 論理演算子<=を2つ使い、特定の範囲に該当するデータを抜き出す
- 論理演算子!=を使う
結合する
- merge関数で共通の列を1つ選択し、DataFrameを結合する
- merge関数で共通の列を複数選択し、DataFrameを結合する
部分一致 (条件に一致するものを抽出する)
- 前方一致
- 後方一致
- 部分一致
ソート(値を並び替える)
- 並び替え
集計(値を数えたり、統計量を出す)
- カウント
- 合計
- Max/Min
- 統計量
クエリ
- 検索結果からのサブクエリ
- 条件指定でのサブクエリ
サンプリング
- ランダム
- 層化
名寄せ
- 完全一致
- 変換データ作成
データ分割
- レコードデータ
- 時系列データ
日付型の変換
- datetime型への変換
値を加工する
- apply()メソッドを使い、値を二値化する。
- ダミー変換
- 標準化
- Min-Max正規化
- 常用対数化
- 自然対数化
欠損値
- 欠損値があるか確認する
- 欠損のある行を削除する
- 欠損値を平均値で置き換える