先附上B站学习视频链接:【美国微软大神的数据分析课】Pandas vs Excel
首先pip安装pandas模块,导入pandas。pandas中最常用的一个结构就是DataFrame,把这个DataFrame存到一个excel文件
import pandas as pd
df = pd.DataFrame()
df.to_excel("C:/temp/test.xlsx")
print("Done!")
当然也可以用字典的形式在DataFrame里加一组数据:
df = pd.DataFrame({'id':[1,2,3],'科室':['骨科','心内科','检验科'],
'分数':[98,97,99]})
pandas里面还有个很重要的概念就是索引(index),默认它会自动加索引列,你也可以设置索引列,可使用replace参数
df.set_index('id',replace=True)
如果有个现成的excel文件需要导入到python中处理,首先要用到read_excel方法;后面可以跟header参数,表示第几行是表头(列名);index_col参数表示用某列作为索引
df = pd.read_excel('C:/souce.xlsx', header=2, index_col='id')
如果想知道这个dataframe的行列数信息,使用shape属性;用columns属性列出所有的列名;还可以用head列出前几行,tail列出末尾几行。
print(df.shape)
print(df.columns)
print(df.head(5))
print(df.tail(5))
没有表头的excel,读取时header=None
还可以自定义列名(表头),存成excel时也会存入文件
df = pd.read_excel('C:/souce.xlsx',header=None)
df.columns = ['id','科室','分数']
您必须登录才能发表评论。