Python批量处理Excel数据表很简单,只要掌握os和pandas这两个包,使用遍历的方法即可批量数据合并,这里举例多种场景下使用Python批量操作处理Excel表,下面的代码只要稍作修改,即可满足各种应用场景。
做数据分析日常最多的就是跟表格打交道,做数据处理和数据合并是必须的,比如,有几百个Excel工作簿,如果手动的Ctrl+C、Ctrl+V这样重复的复制粘贴汇总表格,效率极其慢,使用Python只需8行代码即可批量合并。
import os
path=r'C:\Desktop\数据合并'
listdir=os.listdir(path)
df=pd.read_excel(path+'\\'+ listdir[0])#导入第一个数据表
for filename in listdir[1:]:
dfi=pd.read_excel(path+'\\'+ filename) #导入除第一个数据表外其他数据表
df=pd.concat([df,dfi],sort=False) #数据纵向合并
df.to_excel(r'C:\Desktop\学生成绩数据合并.xlsx',index=False)
同样的道理,如果一个Excel表中有多个不同的sheet表,将其汇总到一个sheet表中,如果复制、粘贴,需要耗时很长时间,使用Python写个程序只有8行代码,10秒不到,就将多个sheet表中的数据合并到一个Excel表中。
import pandas as pd
path=r'C:\Desktop\数据合并\不同科目成绩表.xlsx'
sheet_names=pd.ExcelFile(path).sheet_names
df=pd.read_excel(path,sheet_name=0)#导入第一个sheet表
for sheetname in sheet_names[1:]:
dfi=pd.read_excel(path,sheetname) #导入除第一个sheet表外其他sheet表
df=pd.concat([df,dfi],sort=False) #数据纵向合并
df.to_excel(r'C:\Desktop\学生成绩不同sheet表数据合并.xlsx',index=False)
有时候,创建多个Excel工作簿也是工作必须的,常规操作就是右键新建Excel工作簿,然后右键重命名,如果要创建一个全国各个省份的Excel工作簿,手动创建效率很慢,使用下面的几行代码即可批量创建新的工作簿。
from openpyxl import Workbook
import os
os.mkdir(r'C:\Desktop\批量创建文件夹')#创建一个新的文件夹
name_list = ["湖南","湖北","河南","河北","山东","山西","广东","广西","贵州","陕西"]
for name in name_list:
wb = Workbook()
wb.save(filename = f"C:\Desktop\批量创建文件夹\{name}.xlsx")
某次考试有一个包含所有科目考试成绩的表格,要将每一科的学生成绩分别创建一个sheet表保存各科的成绩,Excel的做法是先在总表中筛选出来各个科目的成绩,然后创建一个新的sheet表,重命名后复制粘贴,使用Python只需4行代码即可批量拆分。
import pandas as pd
df=pd.read_excel(r'C:\Desktop\学生成绩表.xlsx')
for i in df['科目'].unique():
df[df['科目']==i].to_excel(f"C:\Desktop\数据拆分\{i}.xlsx",index=False)
还是上面的案例数据,只不过这次将总成绩表按照不同的科目拆分为不同的工作簿,相对于表格的复制粘贴,这里只需要6行代码就可以实现复杂的Excel操作,轻轻松松实现Excel表格自动化功能。
import pandas as pd
df=pd.read_excel(r'C:\Desktop\数据拆分\学生成绩表.xlsx')
writer=pd.ExcelWriter(r'C:\Desktop\不同科目成绩表.xlsx')
for i in df['科目'].unique():
df[df['科目']==i].to_excel(writer,sheet_name=i,index=False)
writer.save()
如果要生成一份电子合同,常规做法是在Word中先设置一份电子版合同,对于空白项用下划线标识出来,然后手动填写文字,使用Python可以写程序批量生成合同,这样节省了大量的人工时间成本,大大提高了办公效率。
import pandas as pd
from openpyxl.utils.dataframe import dataframe_to_rows
from docxtpl import DocxTemplate
df = pd.read_excel(r'C:\Users\尚天强\Desktop\各高校空调合同.xlsx')
df["签约日期"] = df["签约日期"].apply(lambda x:x.strftime("%Y-%m-%d"))
datas = []
for row in dataframe_to_rows(df,index=False,header=False):
data = {"甲方": row[0],
"乙方": row[1],
"产品名称": row[2],
"产品价格": row[3],
"保修期": row[4],
"签约日期": row[5]}
datas.append(data)
for data in datas:
tpl = DocxTemplate(r'C:\Users\尚天强\Desktop\各高校安装空调合同书.docx')
tpl.render(data)
tpl.save(r'C:\Users\尚天强\Desktop\合同生成\{}的空调安装合同.docx'.format(data['甲方']))
print('{}的空调安装安装合同已生成'.format(data['甲方']))
使用Python程序批量生成电子版合同,生成结果如下,打开任意的一个合同书,我们看到已经在原有的下划线处插入了合同数据。
以上不管是Excel文件处理,还是Word文件处理,Python都可以轻松处理,限于篇幅原因无法一一例举,感兴趣可以关注我,持续分享数据分析知识,相信对你的数据分析能力有所提升,以上代码在运行中遇到问题,可在评论区留言,解决你的代码问题~
本文首发于公众号:大话数据分析,专注于数据分析的实践与分享,掌握Python、SQL、PowerBI、Excel等数据分析工具,擅长运用技术解决企业实际问题,欢迎一同探索数据的世界,解锁业务背后的秘密。