合并表应注意设置表的表头,即将表的第一列设置为合并表的索引,以便在合并表时合并两个表的第一列的相同元素。
方法一:使用join合并
importnumpyasnp importpandasaspd importmatplotlibasplt id1=pd.read_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/id4.csv') dba=pd.read_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/dba2.csv') id1.head() df1=id1.set_index('influencer_name') df2=dba df2=dba.set_index('influencer_name') w=df1.join(df2) w.info()
方法二:使用merge合并
importnumpyasnp importpandasaspd importmatplotlibasplt id4=pd.read_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/id4.csv') dba=pd.read_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/dba2.csv') id4.head() df1=id4.set_index('influencer_name') df2=dba df2=dba.set_index('influencer_name') df3=pd.merge(df1,df2,how='inner',on='influencer_name') print(df3) df3.to_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/alldataexceptyear.csv')
上述两种合并输出的结果不同,但how=‘inner’ 定义是表格内部的合并,合并是两种表格的相似之处。
pd.merge(df1,df2,how='inner',on='influencer_name')