Python操作Excel实战：用Pandas实现数据自动筛选与分类

为什么用Python操作Excel

在日常工作中，我们经常需要对Excel中的数据进行筛选、分类、统计等操作。当数据量较小时，手动操作尚可应付；但当面对数百甚至数千条数据时，手动复制粘贴、逐条筛选就变得极其低效且容易出错。

Python凭借其丰富的第三方库生态，可以用极少的代码量完成复杂的数据处理任务。本文通过一个实际案例——对250部电影数据按年份和类型进行自动分类——来展示Python操作Excel的强大能力。

bilibili source: 【2026精选】102个Python实战项目，从入门到进阶，练完即可就业，活该你进大厂，基础到框架，建议码住！新学期卷死同学丨毕设？面试实战？统统不是问题！

Python操作Excel的核心工具：Pandas库

环境准备与安装

Python默认不支持直接操作Excel文件，我们需要安装Pandas模块。Pandas是Python生态中最强大的数据处理库之一，由Wes McKinney于2008年开发，最初是为了满足金融数据分析的需求。其名称来源于"Panel Data"（面板数据），这是计量经济学中对多维结构化数据的术语。Pandas的核心数据结构是DataFrame（数据框），本质上是一个带有行索引和列标签的二维表格，与Excel的工作表在概念上高度对应。安装方式非常简单：

pip install pandas

安装完成后，在代码中引入并设置别名：

import pandas as pd

这体现了Python的一个核心优势——可插拔的模块化设计。Python本身是轻量级语言，需要什么功能就安装对应的模块，像搭积木一样组合出强大的功能。Pandas底层依赖NumPy进行数值计算，同时通过openpyxl或xlrd等引擎实现对Excel文件的读写。这种分层架构使得Pandas既拥有接近C语言的计算性能，又保持了Python级别的易用性。

用Pandas读取Excel数据

读取Excel文件只需一行代码：

data = pd.read_excel('数据.xlsx')

这样就将Excel中的250条电影数据（包含电影名称、评分、导演、主演、年份/国家/类型等信息）全部加载到了Python程序中。读取完成后，数据以DataFrame的形式存储在内存中，你可以像操作数据库表一样对其进行查询、筛选、聚合等操作，而无需反复打开和关闭Excel文件。

实战：按年份自动分类电影数据

需求分析

原始数据中，年份、国家、类型信息以斜杠分隔存储在同一列中（如"1994/美国/犯罪剧情"）。我们的目标是：

将这些信息拆分为独立的列
按年份将数据分别保存到不同的Sheet工作表中

数据拆分处理

利用Pandas的apply方法配合Lambda匿名函数，可以对每一行数据进行批量处理：

data['year'] = data['type'].apply(lambda x: x.split('/')[0].strip())
data['c'] = data['type'].apply(lambda x: x.split('/')[1].strip())
data['t'] = data['type'].apply(lambda x: x.split('/')[2].strip())

这三行代码的含义是：对type列的每一条数据，按斜杠分割后分别取第一部分（年份）、第二部分（国家）、第三部分（类型），并去除前后空格，存入新的列中。

这里涉及两个重要的编程概念。Lambda匿名函数源自函数式编程范式中的Lambda演算，它是Python中创建小型一次性函数的语法糖，与def定义的常规函数不同，Lambda函数是内联的表达式，适合用于简单的数据转换场景。apply方法本质上是一个高阶函数——它接受另一个函数作为参数，然后将该函数逐行（或逐列）应用到DataFrame的每个元素上。这种模式避免了显式编写for循环，不仅代码更简洁，在某些场景下还能借助Pandas内部的向量化优化获得更好的性能。

按年份保存到不同Sheet

# 获取所有不重复的年份
years = data['year'].unique()

# 创建Excel写入器
writer = pd.ExcelWriter('temp.xlsx')

# 按年份筛选并保存
for i in years:
    data[data['year'] == i].to_excel(writer, sheet_name=i)

writer.close()

运行后，生成的Excel文件中每个年份都有独立的工作表——1994年的电影一个Sheet，1997年的电影一个Sheet，分类清晰一目了然。

这里的pd.ExcelWriter是Pandas提供的Excel文件写入上下文管理器，它允许将多个DataFrame分别写入同一个Excel文件的不同Sheet中。其底层依赖不同的写入引擎：对于.xlsx格式，默认使用openpyxl引擎；对于旧版.xls格式，则使用xlwt引擎。值得注意的是，在处理超大文件（百万行级别）时，可以考虑使用xlsxwriter引擎，它采用流式写入模式，内存占用更低，写入速度也更快。

进阶：按电影类型分类的挑战与解决方案

问题所在

按类型分类比按年份更复杂，因为一部电影可能同时属于多种类型（如"剧情科幻悬疑"），简单的等值匹配会遗漏大量数据。

解决方案：使用包含匹配

首先，需要提取所有不重复的类型标签。由于类型以空格分隔，我们用列表推导式配合set去重：

type_list = set(z for i in data['t'] for z in i.split(' '))

这一行代码等价于：遍历每条数据的类型字段，按空格分割后逐一提取，最后用set自动去重。

这里实际使用的是生成器表达式（Generator Expression），它与列表推导式语法相似但使用圆括号，区别在于生成器不会一次性将所有结果加载到内存中，而是按需生成，对大数据集更加友好。**set（集合）**是Python中基于哈希表实现的数据结构，其核心特性是元素不可重复。当我们将生成器传入set()时，Python会自动对所有类型标签进行去重，时间复杂度接近O(n)，远优于手动遍历去重的方式。

然后使用str.contains()方法进行包含匹配：

for ty in type_list:
    data[data['t'].str.contains(ty)].to_excel(writer, sheet_name=ty)

这样，只要电影类型中包含"科幻"，就会被归入科幻类的Sheet中，即使它同时也是"剧情"和"冒险"类型。

str.contains()是Pandas字符串向量化操作的一部分，它对整列数据执行子字符串匹配，返回一个布尔Series（True/False序列），然后利用布尔索引机制筛选出匹配的行。该方法默认支持正则表达式（Regular Expression），这意味着你不仅可以做简单的包含匹配，还能使用通配符、字符类、量词等高级模式进行复杂的文本筛选。例如，str.contains('^犯罪')可以匹配以"犯罪"开头的类型，str.contains('剧情|悬疑')可以同时匹配包含"剧情"或"悬疑"的记录。这种能力使得Pandas在处理非结构化文本数据时同样得心应手。

Python操作Excel的核心优势

整个自动分类功能，核心代码仅需6-8行。相比手动操作Excel的繁琐流程（筛选→复制→新建Sheet→粘贴→重复N次），Python方案具有三大优势：

对比维度	手动操作	Python自动化
处理速度	随数据量线性增长	几乎不受数据量影响
可复用性	每次重新操作	修改文件名即可复用
数据规模	大文件易卡死崩溃	轻松处理大规模数据集

这里值得补充的是，Excel本身有行数上限——.xlsx格式最多支持1,048,576行，而.xls格式仅支持65,536行。当数据量超过这个限制时，Excel就完全无能为力了。而Python配合Pandas可以轻松处理数百万甚至上千万行的数据，如果数据量更大，还可以无缝切换到Dask（Pandas的分布式版本）或PySpark等大数据处理框架，实现从单机到集群的平滑扩展。

Python就业方向与学习建议

主要就业方向

Web全栈开发：前后端独立开发能力，框架包括Django、Flask等。Django遵循"电池全包"理念，内置了ORM（对象关系映射）、模板引擎、表单验证、用户认证、管理后台等几乎所有Web开发所需的组件，适合快速构建功能完整的大型应用，Instagram和Pinterest的早期版本都基于Django构建。Flask则秉持"微框架"理念，核心只提供路由和请求处理，其他功能通过扩展插件按需引入，给开发者最大的灵活性。近年来，FastAPI凭借其原生异步支持和自动API文档生成能力异军突起，在构建高性能RESTful API和微服务场景中越来越受欢迎。
爬虫工程师：自动化数据采集，少量代码即可爬取大量结构化信息。Python爬虫生态非常成熟，从轻量级的Requests+BeautifulSoup组合到企业级的Scrapy框架，再到处理JavaScript动态渲染的Selenium和Playwright，几乎覆盖了所有网页数据采集场景。
数据分析：各行业的数据统计、用户行为分析、推荐系统等。Python的数据分析技术栈通常包括Pandas（数据处理）、Matplotlib/Seaborn（数据可视化）、Scikit-learn（机器学习建模）和Jupyter Notebook（交互式分析环境），形成了从数据清洗到洞察输出的完整工作流。
人工智能：机器学习、深度学习，Python生态最为成熟。TensorFlow、PyTorch、Keras等主流深度学习框架均以Python作为首选接口语言，加上Hugging Face等开源社区的蓬勃发展，Python已成为AI领域事实上的标准语言。
自动化测试/运维：提升工作效率的脚本开发

学习建议

量化目标：明确要找什么城市、什么薪资范围的工作，倒推需要掌握的技能
快速建立知识体系：先求广度再求深度，不必每个知识点都精通
实战驱动：多写代码、多做项目，在实践中巩固所学知识
坚持积累：编程能力需要持续练习，切忌三天打鱼两天晒网

总结

Python操作Excel的自动化方案，本质上是用几行代码替代了大量重复性的手工操作。这不仅是办公效率的提升，更是编程思维的体现——将重复劳动抽象为可复用的程序逻辑。这种思维方式在软件工程中被称为DRY原则（Don't Repeat Yourself），即"不要重复自己"，它是高效编程的基石之一。

对于想要入门Python的同学来说，办公自动化是一个非常好的切入点：门槛低、见效快、实用性强。学完基础语法和Pandas库就能立即应用到实际工作中，真正做到学以致用。除了Excel操作之外，Python还能轻松实现Word文档批量生成（python-docx库）、PDF文件处理（PyPDF2库）、邮件自动发送（smtplib库）等办公场景的自动化，一旦掌握了核心思路，触类旁通的速度会非常快。