機械学習用のcsvデータを事前にtrainとtestにsplitする。
pandasで簡単にできる。
手順
今回は7:3でsplit
import pandas as pd data_path = " write your csv file path" data = pd.read_csv(main_data_path) data.head() sv_fd = "write your save folder path" train_data = data.sample(frac=0.7, random_state=100).reset_index(drop=True) test_data= data.drop(train_data.index).reset_index(drop=True) print('train_data for Modeling: ' + str(train_data.shape)) print('test_data for Predictions: ' + str(test_data.shape)) train_data.to_csv(os.path.join(sv_fd,"train.csv")) test_data.to_csv(os.path.join(sv_fd,"test.csv"))