Radi_tech’s blog

Radiological technologist in Japan / MRI / AI / Deep learning / MATLAB / R / Python

【Python】重複データさけて、固有値だけを得る(患者IDなどを想定)

Excelで作成したデータなどで、固有値のみを得る方法
PythonでPandasで処理すると簡単

今回は、”患者ID”を想定

import os
import pandas as pd
import numpy as np


ws = "work space用のフォルダ名"
os.chdir(ws)

csv_path = csvファイルのpath
df = pd.read_csv(csv_path)

#患者IDを抽出
df_ID = df["患者ID"]

#重複の確認関数 duplicated
dup_df = df_ID.duplicated()

#否定構文で 重複していないもの を抽出
org_ID_df =  df_ID[~df_ID.duplicated()]

#csv output
org_ID_df.to_csv('original_ID.csv')

あとは元データと照合してvlookupなおで、datasetを作っていく