Pandas のバックアップ(No.7)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る > Pythonセカンド・ステップ
- NumPy
- Pandas
- Matplotlib

目次 †

↑

概要 †

数表の形式で保存されたデータを効率的に処理する機能を収録したライブラリ

Pythonにデータ解析を支援する機能を提供する、
BSDライセンスのもとで提供されているOSSライブラリ。

特に、DML的な処理で、
- 数表および
- 時系列データを

操作するためのデータ構造と演算を提供
（Pythonから簡単に利用できるSQLの代替）

ビッグデータの対応は、
≒ なSpark SQLとDataFrame APIで。

↑

詳細 †

↑

準備 †

↑

インストール †

>pip install pandas

↑

インポート †

>>>import pandas as pd

↑

ファースト・ステップ（Series） †

Series型は、一次元の配列のオブジェクト

↑

生成 †

↑

配列から †

>>>pd.Series([3,7,10,13])
0     3
1     7
2    10
3    13
dtype: int64

↑

npから †

>>>numpy_array = np.array([3,7,10,13])
>>>pd.Series(numpy_array)
0     3
1     7
2    10
3    13
dtype: int64

↑

アクセス †

>>>x=pd.Series([3,7,10,13])

↑

インデックス †

>>>x[1]
7

↑

抽出 †

5より大きい値を調査。

>>>x >= 5
0    False
1     True
2     True
3     True
dtype: bool

5より大きい値を抽出。
```
>>>x[x>=5]
```

↑

配列 †

配列の取り出し

>>>x.values
array([ 3,  7, 10, 13], dtype=int64)

↑

セカンド・ステップ（DataFrame1） †

DataFrame?型は、テーブル形式のデータ構造

↑

生成 †

↑

辞書型から †

>>> pd.DataFrame({
...      'xxx': ['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff'], # 長さ: 6
...      'yyy': [20, 34, 50, 12, 62, 22], # 長さ: 6
...      'zzz':['AAA', 'BBB', 'CCC', 'DDD', 'EEE', 'FFF'] # 長さ: 6
... })
  xxx  yyy  zzz
0  aaa   20  AAA
1  bbb   34  BBB
2  ccc   50  CCC
3  ddd   12  DDD
4  eee   62  EEE
5  fff   22  FFF

↑

Excelから †

openpyxlが必要
```
>!pip install openpyxl
```

Excel読込
```
>>>df = pd.read_excel('hoge.xlsx')
```

↑

確認 †

→ 先頭・後尾

↑

アクセス †

>>> df=pd.DataFrame({
...     'xxx': ['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff'], # 長さ: 6
...     'yyy': [20, 34, 50, 12, 62, 22], # 長さ: 6
...     'zzz':['AAA', 'BBB', 'CCC', 'DDD', 'EEE', 'FFF'] # 長さ: 6
... })
>>> df
   xxx  yyy  zzz
0  aaa   20  AAA
1  bbb   34  BBB
2  ccc   50  CCC
3  ddd   12  DDD
4  eee   62  EEE
5  fff   22  FFF

↑

先頭・後尾 †

先頭

先頭５行を出力（既定値
```
>>>df.head()
```

先頭２行を出力（明示
```
>>>df.head(2)
```

後尾

後尾５行を出力（既定値
```
>>>df.tail()
```

先頭２行を出力（明示
```
>>>df.tail(2)
```

↑

インデックス †

（行列指定）

行列番号
```
>>>df.iloc[1,0]
'bbb'
```

行番号・列名
```
>df.loc[1,'xxx']
'bbb'
```

↑

行指定（≒ 選択） †

行データの取り出し

>>>df.iloc[2]
xxx    ccc
yyy     50
zzz    CCC
Name: 2, dtype: object

DataFrame?のまま取り出す。

>>>df.iloc[[2]]
   xxx  yyy  zzz
2  ccc   50  CCC

↑

列指定（≒ 射影） †

行列指定
行はスライシングで全部指定
Series型に変換される。

>>>df.loc[:,'yyy']
0    20
1    34
2    50
3    12
4    62
5    22
Name: yyy, dtype: int64

DataFrame?のまま射影

行列指定

>>>df.loc[:,['yyy']]
   yyy
0   20
1   34
2   50
3   12
4   62
5   22

列のみ指定

>>>df[['yyy']]
   yyy
0   20
1   34
2   50
3   12
4   62
5   22

↑

編集 †

行編集: axis=0
列編集: axis=1

↑

行追加 †

concatを使った例

>>>row=pd.DataFrame({
           'xxx': 'ggg',
           'yyy': [45],
           'zzz': 'GGG'})

>>> df=pd.concat([df,row],axis=0)
>>> df
   xxx  yyy  zzz
0  aaa   20  AAA
1  bbb   34  BBB
2  ccc   50  CCC
3  ddd   12  DDD
4  eee   62  EEE
5  fff   22  FFF
0  ggg   45  GGG

インデックス再設定

>>>df.index=np.arange(len(df))
>>> df
   xxx  yyy  zzz
0  aaa   20  AAA
1  bbb   34  BBB
2  ccc   50  CCC
3  ddd   12  DDD
4  eee   62  EEE
5  fff   22  FFF
6  ggg   45  GGG

↑

列追加 †

簡単な例

>>>df['@@@']=['@1','@2','@3','@4','@5','@6','@7']
>>>df
   xxx  yyy  zzz @@@
0  aaa   20  AAA  @1
1  bbb   34  BBB  @2
2  ccc   50  CCC  @3
3  ddd   12  DDD  @4
4  eee   62  EEE  @5
5  fff   22  FFF  @6
6  ggg   45  GGG  @7

concatを使った例

>>>col=pd.DataFrame({'@@@':['@1','@2','@3','@4','@5','@6','@7']})
>>>df=pd.concat([df,col],axis=1)
>>>df
   xxx  yyy  zzz @@@
0  aaa   20  AAA  @1
1  bbb   34  BBB  @2
2  ccc   50  CCC  @3
3  ddd   12  DDD  @4
4  eee   62  EEE  @5
5  fff   22  FFF  @6
6  ggg   45  GGG  @7

↑

行削除 †

>>>df=df.drop(2,axis=0)
>>> df
   xxx  yyy  zzz @@@
0  aaa   20  AAA  @1
1  bbb   34  BBB  @2
3  ddd   12  DDD  @4
4  eee   62  EEE  @5
5  fff   22  FFF  @6
6  ggg   45  GGG  @7

↑

列の削除 †

>>>df=df.drop('yyy',axis=1)
>>>df
   xxx  zzz @@@
0  aaa  AAA  @1
1  bbb  BBB  @2
3  ddd  DDD  @4
4  eee  EEE  @5
5  fff  FFF  @6
6  ggg  GGG  @7

↑

列名の変更 †

>>>df.columns=['XXX','YYY','ZZZ']
>>>df
   XXX  YYY ZZZ
0  aaa  AAA  @1
1  bbb  BBB  @2
3  ddd  DDD  @4
4  eee  EEE  @5
5  fff  FFF  @6
6  ggg  GGG  @7

↑

サード・ステップ（DataFrame2） †

↑

NP ⇔ DF型変換 †

NP初期化

>>>np_arr=np.array([[1,2,3],[4,5,6]])

↑

NP → DF †

要列名付与

>>>df=pd.DataFrame(np_arr,columns=['a','b','c'])

↑

DF → NP †

np.arrayメソッド
```
>>>np_arr=np.array(df)
```

np.valueプロパティ
```
>>>np_arr=df.value
```

↑

特徴量エンジニアリング †

↑

基本統計量 †

>>>df.describe()

↑

相関係数行列 †

>>>df.corr()

※ 可視化する方法はコチラ。

↑

参考 †

pandas - Wikipedia
https://ja.wikipedia.org/wiki/Pandas

Qiita
- データ分析で頻出のPandas基本操作
  https://qiita.com/ysdyt/items/9ccca82fc5b504e7913a
- SQLでやるこの操作ってpandas.DataFrame?ではどうやるの！
  https://qiita.com/HiromuMasuda0228/items/d62a47cf9b83481929a7
- SQL と Pandas の対応表
  https://qiita.com/takaiyuk/items/5232442eaeb01299b265

目次 †

概要 †

詳細 †

準備 †

インストール †

インポート †

型 †

Series †

DataFrame †

ファースト・ステップ（Series） †

生成 †

配列から †

npから †

アクセス †

インデックス †

抽出 †

配列 †

セカンド・ステップ（DataFrame1） †

生成 †

辞書型から †

Excelから †

確認 †

アクセス †

先頭・後尾 †

インデックス †

行指定（≒ 選択） †

列指定（≒ 射影） †

編集 †

行追加 †

列追加 †

行削除 †

列の削除 †

列名の変更 †

サード・ステップ（DataFrame2） †

NP ⇔ DF型変換 †

NP → DF †

DF → NP †

特徴量エンジニアリング †

基本統計量 †

相関係数行列 †

参考 †