やみとものプログラミング日記 やみとものプログラミング日記
TOP 【Kaggle】データ分析の仕方・プログラミングメモ
【Kaggle】データ分析の仕方・プログラミングメモ

【Kaggle】データ分析の仕方・プログラミングメモ

Kaggle
作成日時: 2020年1月30日(木) 16時27分
更新日時: 2020年2月5日(水) 12時17分

この記事ではKaggleなどでデータ分析をする時に使用するコードをすぐに思い出せるようにまとめます。

基本

pandasのデータフレームの作り方

小さなデータフレームを作ってコードの正しさを確認する場合などに使う。

データフレームから条件を指定して行を取り出す

応用

以下のようなデータがあるとします。

列に含まれる値の種類と数を知る

散布図を作る

以下のような散布図を作りたいとします。

この時のコードは次のようになります。


散布図行列を作る

df = pd.DataFrame({
    "age": [10, 20, 30],
    "height": [150, 170, 180]
})
sns.pairplot(df)


相関行列をヒートマップとしてプロットする

import numpy as np

df = pd.DataFrame({
    "age": [10, 20, 30],
    "height": [100, 70, 40]
})

cm = np.corrcoef(df.values.T)
sns.heatmap(
    cm, 
    annot=True
    square=True,
    fmt=".2f",
    yticklabels=df.columns, 
    xticklabels=df.columns, 
    annot_kws={"size": 15}
)

応答変数と相関の高い特徴量を列挙する

df_train.corr()["SalePrice"].sort_values(ascending=False).head(11)

SalePrice 1.000000

OverallQual 0.790982

GrLivArea 0.708624

GarageCars 0.640409

GarageArea 0.623431

TotalBsmtSF 0.613581

1stFlrSF 0.605852

FullBath 0.560664

TotRmsAbvGrd 0.533723

YearBuilt 0.522897

YearRemodAdd 0.507101

Name: SalePrice, dtype: float64


scikit-learnの使い方

mean_absolute_errorの使い方

下のようにnumpy配列とpandasのデータフレームがごちゃまぜでも動く。




コメント(0)

まだコメントがありません。
もしよろしければ下のフォームからコメント下さい。


コメントする

もしよろしければコメント下さい。

ハンドルネーム:

内容:

最新記事


【英語】テスト駆動勉強法
【英語】テスト駆動勉強法
コサイン類似度はベクトルを正規化してから内積を取っている
コサイン類似度はベクトルを正規化してから内積を取っている
【ゼロから作るDeep Learning 2】MatMulノード解説
【ゼロから作るDeep Learning 2】MatMulノード解説
『Kaggle』カテゴリの記事