Radi_tech’s blog

Radiological technologist in Japan / MRI / AI / Deep learning / MATLAB / R / Python

【Python】Pandasでcsvを読み込んで縦結合して重複を削除

Pandasでcsvを読み込んで縦結合して重複を削除するコード
例えば、研究会のEmalアドレス管理などに便利

import os
import pandas as pd


ws = "ワークスペースのpathを書く"
os.chdir(ws)


csv_1 = os.path.join(ws,"001.csv")
csv_2 = os.path.join(ws,"002.csv")
csv_3 = os.path.join(ws,"003.csv")
csv_4 = os.path.join(ws,"004.csv")
csv_5 = os.path.join(ws,"005.csv")

df_1 = pd.read_csv(csv_1,  header=0, sep=',', encoding="cp932")
df_2 = pd.read_csv(csv_2,  header=0, sep=',', encoding="cp932")
df_3 = pd.read_csv(csv_3,  header=0, sep=',', encoding="cp932")
df_4 = pd.read_csv(csv_4,  header=0, sep=',', encoding="cp932")
df_5 = pd.read_csv(csv_5,  header=0, sep=',', encoding="cp932")

# 縦に結合
df_sum =  pd.concat([df_1, df_2, df_3, df_4, df_5])

# Emailが重複する人を削除して、Excelでoutput (csvだと文字化けした。。。)
#削除する列をcolum名で指定

df = df_sum.drop_duplicates(subset='Email')
df.to_excel('clean_email.xlsx', header= True, index=True, encoding='utf-8')

〜