Pandas のバックアップ(No.15)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る > Pythonセカンド・ステップ
- NumPy
- Pandas
- Matplotlib

目次 †

目次
概要
詳細
- 準備
  - インストール
  - インポート
- 型
  - Series
  - DataFrame
ファースト・ステップ（Series）
- 生成
- アクセス
セカンド・ステップ（DataFrame1）
サード・ステップ（DataFrame2）
参考

↑

概要 †

数表の形式で保存されたデータを効率的に処理する機能を収録したライブラリ

Pythonにデータ解析を支援する機能を提供する、
BSDライセンスのもとで提供されているOSSライブラリ。

特に、DML的な処理で、
- 数表および
- 時系列データを

操作するためのデータ構造と演算を提供
（Pythonから簡単に利用できるSQLの代替）

ビッグデータの対応は、
≒ なSpark SQLとDataFrame APIで。

↑

詳細 †

↑

準備 †

↑

インストール †

>pip install pandas

↑

インポート †

>>>import pandas as pd

↑

ファースト・ステップ（Series） †

Series型は、一次元の配列のオブジェクト

↑

生成 †

↑

配列から †

>>>pd.Series([3,7,10,13])
0     3
1     7
2    10
3    13
dtype: int64

↑

NumPyから †

NumPyの配列から

>>>numpy_array = np.array([3,7,10,13])
>>>pd.Series(numpy_array)
0     3
1     7
2    10
3    13
dtype: int64

↑

コピー †

>>>ss=pd.Series([3,7,10,13])

以下は参照渡し
```
>>>ss2=ss
```

コピーする場合は以下
```
>>>ss2=ss.copy()
```

↑

アクセス †

>>>x=pd.Series([3,7,10,13])

↑

インデックス †

>>>x[1]
7

↑

抽出 †

5より大きい値を調査。

>>>x >= 5
0    False
1     True
2     True
3     True
dtype: bool

5より大きい値を抽出。
```
>>>x[x>=5]
```

※ インデックスにtrue, falseのSeriesが指定され抽出される。

↑

配列 †

配列の取り出し

>>>x.values
array([ 3,  7, 10, 13], dtype=int64)

↑

セカンド・ステップ（DataFrame1） †

DataFrame?型は、テーブル形式のデータ構造

↑

生成 †

↑

辞書型から †

>>> pd.DataFrame({
...      'xxx': ['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff'], # 長さ: 6
...      'yyy': [20, 34, 50, 12, 62, 22], # 長さ: 6
...      'zzz':['AAA', 'BBB', 'CCC', 'DDD', 'EEE', 'FFF'] # 長さ: 6
... })
  xxx  yyy  zzz
0  aaa   20  AAA
1  bbb   34  BBB
2  ccc   50  CCC
3  ddd   12  DDD
4  eee   62  EEE
5  fff   22  FFF

↑

NumPyから †

NumPyの行列（２次配列）から → NP ⇔ DF型変換

↑

CSVから †

>>>df = pd.read_csv('hoge.csv')

↑

Excelから †

openpyxlが必要
```
>!pip install openpyxl
```

Excel読込
```
>>>df = pd.read_excel('hoge.xlsx')
```

↑

コピー †

以下は参照渡し
```
>>>df2=df
```

コピーする場合は以下
```
>>>df2=df.copy()
```

↑

確認 †

→ 先頭・後尾

↑

アクセス †

>>> df=pd.DataFrame({
...     'xxx': ['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff'], # 長さ: 6
...     'yyy': [20, 34, 50, 12, 62, 22], # 長さ: 6
...     'zzz':['AAA', 'BBB', 'CCC', 'DDD', 'EEE', 'FFF'] # 長さ: 6
... })
>>> df
   xxx  yyy  zzz
0  aaa   20  AAA
1  bbb   34  BBB
2  ccc   50  CCC
3  ddd   12  DDD
4  eee   62  EEE
5  fff   22  FFF

↑

先頭・後尾 †

先頭

先頭５行を出力（既定値
```
>>>df.head()
```

先頭２行を出力（明示
```
>>>df.head(2)
```

後尾

後尾５行を出力（既定値
```
>>>df.tail()
```

先頭２行を出力（明示
```
>>>df.tail(2)
```

↑

インデックス †

行指定
```
>>>df.iloc[1]
```

列指定
NumPyと同様にスライシングが可能
```
>>>df.iloc[:,1]
```

行列指定

行列番号
```
>>>df.iloc[1,0]
'bbb'
```

行番号・列名
```
>df.loc[1,'xxx']
'bbb'
```

↑

抽出 †

スライシング

行
```
>>>df.iloc[2:4]
```

列
```
>>>df.iloc[:,1]
```

配列でインデックスを指定

比較演算

30より大きいyyy列の値を調査。
```
>>>df.yyy >= 30
```

30より大きいyyy列の値を抽出。
```
>>>df[df.yyy >= 30]
```

※ インデックスにname=yyyのtrue, falseのSeriesが指定され抽出される。

↑

行列 †

ｍ行ｎ列の二次元行列が取得できる。

>>>df.values

↑

行指定（≒ 選択） †

行データの取り出し

>>>df.iloc[2]
xxx    ccc
yyy     50
zzz    CCC
Name: 2, dtype: object

DataFrame?のまま取り出す。

>>>df.iloc[[2]]
   xxx  yyy  zzz
2  ccc   50  CCC

↑

列指定（≒ 射影） †

行列指定
行はスライシングで全部指定
Series型に変換される。

>>>df.loc[:,'yyy']
0    20
1    34
2    50
3    12
4    62
5    22
Name: yyy, dtype: int64

DataFrame?のまま射影

行列指定

>>>df.loc[:,['yyy']]
   yyy
0   20
1   34
2   50
3   12
4   62
5   22

列のみ指定

>>>df[['yyy']]
   yyy
0   20
1   34
2   50
3   12
4   62
5   22

↑

編集 †

行編集: axis=0
列編集: axis=1

↑

行追加 †

concatを使った例

>>>row=pd.DataFrame({
           'xxx': 'ggg',
           'yyy': [45],
           'zzz': 'GGG'})

>>> df=pd.concat([df,row],axis=0)
>>> df
   xxx  yyy  zzz
0  aaa   20  AAA
1  bbb   34  BBB
2  ccc   50  CCC
3  ddd   12  DDD
4  eee   62  EEE
5  fff   22  FFF
0  ggg   45  GGG

インデックス再設定

>>>df.index=np.arange(len(df))
>>> df
   xxx  yyy  zzz
0  aaa   20  AAA
1  bbb   34  BBB
2  ccc   50  CCC
3  ddd   12  DDD
4  eee   62  EEE
5  fff   22  FFF
6  ggg   45  GGG

↑

列追加 †

簡単な例

>>>df['@@@']=['@1','@2','@3','@4','@5','@6','@7']
>>>df
   xxx  yyy  zzz @@@
0  aaa   20  AAA  @1
1  bbb   34  BBB  @2
2  ccc   50  CCC  @3
3  ddd   12  DDD  @4
4  eee   62  EEE  @5
5  fff   22  FFF  @6
6  ggg   45  GGG  @7

concatを使った例

>>>col=pd.DataFrame({'@@@':['@1','@2','@3','@4','@5','@6','@7']})
>>>df=pd.concat([df,col],axis=1)
>>>df
   xxx  yyy  zzz @@@
0  aaa   20  AAA  @1
1  bbb   34  BBB  @2
2  ccc   50  CCC  @3
3  ddd   12  DDD  @4
4  eee   62  EEE  @5
5  fff   22  FFF  @6
6  ggg   45  GGG  @7

↑

行削除 †

>>>df=df.drop(2,axis=0)
>>> df
   xxx  yyy  zzz @@@
0  aaa   20  AAA  @1
1  bbb   34  BBB  @2
3  ddd   12  DDD  @4
4  eee   62  EEE  @5
5  fff   22  FFF  @6
6  ggg   45  GGG  @7

↑

列削除 †

>>>df=df.drop('yyy',axis=1)
>>>df
   xxx  zzz @@@
0  aaa  AAA  @1
1  bbb  BBB  @2
3  ddd  DDD  @4
4  eee  EEE  @5
5  fff  FFF  @6
6  ggg  GGG  @7

↑

列名の変更 †

>>>df.columns=['XXX','YYY','ZZZ']
>>>df
   XXX  YYY ZZZ
0  aaa  AAA  @1
1  bbb  BBB  @2
3  ddd  DDD  @4
4  eee  EEE  @5
5  fff  FFF  @6
6  ggg  GGG  @7

↑

列値の変更 †

列値を％に変更する（100倍する）などの単位変更。

>>>df.iloc[:,m:n] = df.iloc[:,m:n] * 100
>>>df=df.astype(int) # 小数点以下を切り捨て

↑

行列の入替（転置） †

df=df.transpose()

↑

サード・ステップ（DataFrame2） †

↑

NP ⇔ DF型変換 †

NP初期化

>>>np_arr=np.array([[1,2,3],[4,5,6]])

↑

NP → DF †

要列名付与

>>>df=pd.DataFrame(np_arr,columns=['a','b','c'])

↑

DF → NP †

np.arrayメソッド
```
>>>np_arr=np.array(df)
```

df.valuesプロパティ
```
>>>np_arr=df.values
```

↑

少々高度な補完処理 †

基本的な補完処理はコチラ

↑

Xを含む要素を一括置換 †

ハードコード

>>>df['列名'] = df['列名'].str.replace('.*(置換前).*', '置換後', regex=True)

パターンを抽出して処理

list_col1 = [i.split(",")[1].split(".")[0].strip() for i in df["col1"]]
df["col1"] = pd.Series(list_col1)
nparr_col1 = df["col1"].unique()
for cell in nparr_col1:
   df['col1'] = df['col1'].str.replace('.*({0}\.).*'.format(cell), cell, regex=True)

↑

グループの平均値で補完 †

>>>df['補完対象列名'] = df.groupby('グループ化列名')['補完対象列名'].transform(lambda d: d.fillna(d.mean()))

↑

Spark SQLを使わない集計 †

↑

列方向に集計 †

m～n列を列集計

df_sum = df.iloc[:,m:n].sum(axis=0)
df_sum.columns = ['Sum']

集計行として追加

df=pd.concat([df,df_sum.transpose()],axis=0)

↑

行方向に集系 †

m～n列を行集計

df_sum = df.iloc[:,m:n].sum(axis=1)
df_sum.columns = ['Sum']

集計列として追加
```
df=pd.concat([df,df_sum],axis=1)
```

↑

特徴量エンジニアリング †

↑

基本統計量 †

通常
```
>>>df.describe()
```

小数点以下、切捨
```
>>>df.describe().astype(int)
```

↑

相関係数行列 †

>>>df.corr()

※ 可視化する方法はコチラ。

↑

DataFrame?で標準化 †

>>>X = (df.iloc[:, m:n] - df.iloc[:, m:n].mean()) / df.iloc[:, m:n].std()
>>>X.describe()

※ 平均が ≒ 0､標準偏差 ≒ 1 になればOK。

↑

One-Hotエンコーディング †

カテゴリを列に展開（0・1化）など。
```
pd.get_dummies(df['カテゴリ列の列名'])
```

展開した列を表に追加する流れ

df_dummy = pd.get_dummies(df['カテゴリ列の列名'])
df = pd.concat([df, df_dummy], axis=1)
df.head()

↑

参考 †

pandas - Wikipedia
https://ja.wikipedia.org/wiki/Pandas

Qiita
- データ分析で頻出のPandas基本操作
  https://qiita.com/ysdyt/items/9ccca82fc5b504e7913a
- SQLでやるこの操作ってpandas.DataFrame?ではどうやるの！
  https://qiita.com/HiromuMasuda0228/items/d62a47cf9b83481929a7
- SQL と Pandas の対応表
  https://qiita.com/takaiyuk/items/5232442eaeb01299b265

目次 †

概要 †

詳細 †

準備 †

インストール †

インポート †

型 †

Series †

DataFrame †

ファースト・ステップ（Series） †

生成 †

配列から †

NumPyから †

コピー †

アクセス †

インデックス †

抽出 †

配列 †

セカンド・ステップ（DataFrame1） †

生成 †

辞書型から †

NumPyから †

CSVから †

Excelから †

コピー †

確認 †

アクセス †

先頭・後尾 †

インデックス †

抽出 †

行列 †

行指定（≒ 選択） †

列指定（≒ 射影） †

編集 †

行追加 †

列追加 †

行削除 †

列削除 †

列名の変更 †

列値の変更 †

行列の入替（転置） †

サード・ステップ（DataFrame2） †

NP ⇔ DF型変換 †

NP → DF †

DF → NP †

少々高度な補完処理 †

Xを含む要素を一括置換 †

グループの平均値で補完 †

Spark SQLを使わない集計 †

列方向に集計 †

行方向に集系 †

特徴量エンジニアリング †

基本統計量 †

相関係数行列 †

DataFrame?で標準化 †

One-Hotエンコーディング †

参考 †