在Python中,有好几个可以用来操作excel文件的第三方库,比如:xlsxwriter、xlrd、xlwt、xlutils、pyexcel_xls等,但是这些第三方库对excel支持或多或少都有点小问题。
xlsxWriter:
1、支持新建和新建后的写入,不支持对已有的excel文件的读取和修改。
2、适合的场景:需要创建xlsx文件,不需要读,且数据量大;
xlrd & xlwt & xlutils:
1、对xls文件的读写和其他很多全面的功能,但是对xlsx的excel支持很差
2、适用的场景:要读取xls和xlsx文件中的值,最后生成xls文件,需要的功能不复杂。
在本章节中,将介绍openpyxl库来操作excel文件。Openpyxl是一个用于读取、写入Excel 2010 xlsx/xlsm/xltx/xltm文件的Python库。它支持使用Python创建和修改Excel工作表、单元格、行和列等对象,并提供了许多操作Excel的方法。
以下是Openpyxl库的一些主要特点:
读取和写入Excel文件:Openpyxl可以读取和写入Excel 2010 xlsx/xlsm/xltx/xltm文件,支持使用Python读取和修改Excel文件中的数据。
创建和修改Excel工作表:使用Openpyxl可以创建新的Excel工作表,也可以修改现有的工作表。
操作单元格、行和列:Openpyxl提供了许多操作单元格、行和列的方法,例如获取单元格的值、设置单元格的格式、插入和删除行和列等。
支持公式:Openpyxl支持在Excel工作表中使用公式,可以使用Python创建和修改公式。
支持图表:Openpyxl支持在Excel工作表中创建和修改图表。
支持样式:Openpyxl支持设置单元格的样式,例如字体、颜色、对齐方式等。
支持数据验证:Openpyxl支持在Excel工作表中使用数据验证,可以限制用户在单元格中输入的数据类型和范围。
支持保护工作表:Openpyxl支持保护工作表,可以设置工作表的访问权限和密码。
总之,Openpyxl是一个功能强大的Python库,可以使用Python方便地进行Excel文件的读取和写入操作,适用于数据分析、数据清洗、报表生成等应用场景。
pip install openpyxl
import openpyxl
def mtCreateNewWorkbook(pmWorkbookName="test.xlsx", pmSheetName="Sheet1"):
""" 创建一个新的工作簿 """
wb = openpyxl.Workbook() # 生成一个 Workbook 的实例化对象,wb即代表一个工作簿(一个Excel文件)
ws = wb.active # 获取活跃的工作表,ws代表工作簿的一个工作表
ws.title = pmSheetName # 更改工作表的名称
# 新建工作表,方式一:插入到最后(default)
ws1 = wb.create_sheet("Mysheet1")
# 新建工作表,方式二:插入到最开始的位置
ws2 = wb.create_sheet("Mysheet2", 0)
# 选择表:
ws3 = wb["Mysheet1"]
ws4 = wb.get_sheet_by_name("Mysheet2")
print(wb.sheetnames) # 查看所有的工作表
# 删除表
wb.remove(sheet1)
del wb[‘sheet2’]
wb.save(pmWorkbookName) # 保存工作簿
mtCreateNewWorkbook()
使用openpyxl库下的load_workbook函数可以用来打开已存在的工作簿。该函数的参数说明如下:
openpyxl.load_workbook(
filename, 要打开的excel文件名,不支持xls
read_only=False, 是否只读打开,默认可读写打开
keep_vba=KEEP_VBA, 是否要保留excel文件中的vba代码,建议保留
data_only=False, 是否删除公式只保留公式计算后的值
keep_links=True 是否应保留指向外部工作簿的链接。默认保留
)
在openpyxl库中,对于读取工作表中的内容有几种模式:
1、单元格模式
2、单行模式
3、单列模式
4、行模式
5、列模式
6、切片模式
根据自身需要选择不同的模式进行读取。
import openpyxl
from icecream import ic
wb = openpyxl.load_workbook('test.xlsx', read_only=True, data_only=True)
ws = wb.active
ic(ws['A2'].value) # 单元格:A2
ic(ws.cell(2, 2).value) # 单元格:(2,2)
ic([x.value for x in ws[2]]) # 单行模式:(2)
ic([[cell.value for cell in row] for row in ws[2:4]]) # 行模式:(2:4)
ic([[cell.value for cell in row] for row in ws['A2:C4']]) # 切片:A2:C4
wb.close()
wb = openpyxl.load_workbook('test.xlsx', read_only=False, data_only=True)
ws = wb.active
ic([x.value for x in ws['C']]) # 单列模式:(2),必须是开启可写模式才可以。
ic([[cell.value for cell in row] for row in ws['A:C']]) # 列模式:A:C,必须是开启可写模式才可以。
wb.close()
17:10:58|> ws[‘A2’].value: 2
17:10:58|> ws.cell(2, 2).value: 4
17:10:58|> [x.value for x in ws[2]]: [2, 4, 6, 8, 10]
17:10:58|> [[cell.value for cell in row] for row in ws[2:4]]: [[2, 4, 6, 8, 10], [3, 6, 9, 12, 15], [4, 8, 12, 16, 20]]
17:10:58|> [[cell.value for cell in row] for row in ws[‘A2:C4’]]: [[2, 4, 6], [3, 6, 9], [4, 8, 12]]
17:10:58|> [x.value for x in ws[‘C’]]: [3, 6, 9, 12, 15, 18, 21, 24, 27, 30]
17:10:58|> [[cell.value for cell in row] for row in ws[‘A:C’]]: [[1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
[2, 4, 6, 8, 10, 12, 14, 16, 18, 20],
[3, 6, 9, 12, 15, 18, 21, 24, 27, 30]]
import openpyxl
wb = openpyxl.load_workbook('test.xlsx', read_only=False, data_only=True)
ws = wb.active
for i in range(1, 5):
for j in range(1, 5):
ws.cell(i, j).value = i ** j
wb.save('test.xlsx')
wb.close()
from icecream import ic
import openpyxl
from openpyxl.utils import get_column_letter, column_index_from_string
wb = openpyxl.load_workbook('test.xlsx', read_only=False, data_only=True)
ws = wb.active
ic(ws.max_row, ws.max_column) # 获取已使用单元格的最大行和列
ic([x for x in ws.rows]) # 获取所有行
ic([x for x in ws.columns]) # 获取所有列,必须read_only=False
# 根据列的数字返回字母
ic(get_column_letter(2)) # B
# 根据字母返回列的数字
ic(column_index_from_string('D')) # 4
wb.close()