Pandasでcsvを読み込んで縦結合して重複を削除するコード
例えば、研究会のEmalアドレス管理などに便利
〜 import os import pandas as pd ws = "ワークスペースのpathを書く" os.chdir(ws) csv_1 = os.path.join(ws,"001.csv") csv_2 = os.path.join(ws,"002.csv") csv_3 = os.path.join(ws,"003.csv") csv_4 = os.path.join(ws,"004.csv") csv_5 = os.path.join(ws,"005.csv") df_1 = pd.read_csv(csv_1, header=0, sep=',', encoding="cp932") df_2 = pd.read_csv(csv_2, header=0, sep=',', encoding="cp932") df_3 = pd.read_csv(csv_3, header=0, sep=',', encoding="cp932") df_4 = pd.read_csv(csv_4, header=0, sep=',', encoding="cp932") df_5 = pd.read_csv(csv_5, header=0, sep=',', encoding="cp932") # 縦に結合 df_sum = pd.concat([df_1, df_2, df_3, df_4, df_5]) # Emailが重複する人を削除して、Excelでoutput (csvだと文字化けした。。。) #削除する列をcolum名で指定 df = df_sum.drop_duplicates(subset='Email') df.to_excel('clean_email.xlsx', header= True, index=True, encoding='utf-8') 〜