10个Python技巧让你的代码脱胎换骨

摘要：在我还是个编程新手时，我曾一度沉浸在复制粘贴代码的“快感”中。为了赶项目，我常常从各种来源（如 Stack Overflow、GitHub Gists 和技术博客）拼凑代码，最终写出了一个 500 多行、勉强能运行的“怪物”脚本。然而，每当我试图修改它时，都像

在我还是个编程新手时，我曾一度沉浸在复制粘贴代码的“快感”中。为了赶项目，我常常从各种来源（如 Stack Overflow、GitHub Gists 和技术博客）拼凑代码，最终写出了一个 500 多行、勉强能运行的“怪物”脚本。然而，每当我试图修改它时，都像是从一件毛衣上抽线，一不小心，整个程序就崩溃了。

那种挫败感让我意识到，仅仅依赖复制粘贴是行不通的。我必须真正理解代码背后的逻辑，才能从根本上解决问题。于是，我开始了一段探索之旅，学习那些看似简单、实则优雅的 Python 技巧。这些技巧不仅节省了我大量时间，还让我的代码变得更专业、更易读。

今天，我想与大家分享我学到的 10 个 Python 实用技巧。如果你也曾像我一样，在十几个浏览器标签页之间来回切换，试图拼凑出一段可用的代码，那么这篇文章将彻底改变你编写 Python 的方式。

在处理数据时，我最常遇到的场景就是从字典中获取某个键的值。如果这个键不存在，程序就会报错。为了解决这个问题，我以前总是写出下面这种笨拙的 if-else 结构：

if "user_id" in data: user = data["user_id"]else: user = "guest"

这种写法虽然有效，但代码冗长，可读性也不佳。尤其是当你在处理来自 API 的、可能缺失某些字段的 JSON 数据时，这种模式会频繁出现，让代码变得臃肿不堪。

后来，我发现了**dict.get**方法。它允许你指定一个默认值，如果字典中不存在你想要的键，它就会返回你设定的默认值，而不会抛出异常。

user = data.get("user_id", "guest")

仅仅一行代码，就完美地替代了上面的 if-else 结构。它不仅让代码更简洁，也大大提升了容错能力。这个技巧虽然小，但在处理不完整的数据集时，它能为你节省大量时间和精力。

当需要处理一个文件夹里的所有文件时，比如所有 CSV 文件，我们通常会想到用os模块和for循环来遍历：

import osimport pandas as pdfor File in os.listdir("data"): if file.endswith(".csv"): df = pd.read_csv(f"data/{file}") # process df

这种方式需要手动拼接路径，并且需要额外的if判断来筛选文件类型。在不同操作系统上，路径的斜杠方向可能不同，这也会带来一些潜在问题。

而**pathlib**模块则提供了一种更优雅、更现代的方式来处理文件路径。它的glob方法可以像文件管理器一样，通过通配符来搜索文件，并返回一个可迭代的对象。

from pathlib import Pathimport pandas as pdfor csv_file in Path("data").glob("*.csv"): df = pd.read_csv(csv_file) # process df

使用pathlib，代码变得更清晰，而且因为它处理路径的方式与操作系统无关，所以你的脚本在任何系统上都能正常运行。它让文件处理变得“太简单”，以至于你可能感觉这就像在作弊。

在进行机器学习的网格搜索时，我曾经写过一个三重嵌套循环来生成所有的参数组合。那段经历简直是噩梦。

params = for lr in [0.01, 0.1, 1]: for depth in [3, 5, 7]: for batch in [16, 32]: params.append((lr, depth, batch))

这段代码不仅难以阅读，而且如果参数种类更多，嵌套的层级也会随之增加，可维护性极差。

好在 Python 的标准库中有一个强大的工具：itertools.product。它专门用于生成多个可迭代对象的笛卡尔积，也就是所有可能的组合。

from itertools import productparams = list(product([0.01, 0.1, 1], [3, 5, 7], [16, 32]))

这段代码不仅简洁高效，而且一眼就能看出它的意图——生成参数的组合。它向别人宣告：“我懂 Python。”

在调试脚本时，为了测试某段代码的执行效率，我经常在代码前后插入time.time来计算运行时间。

import timestart_time = time.time# 要测试的代码end_time = time.timeexecution_time = end_time - start_timeprint(execution_time)

这种方法虽然有效，但需要写很多“样板”代码。当你要测试多个地方时，这些代码就会让你的脚本变得杂乱。

**timeit**模块则提供了一个更专业的解决方案。它可以直接测量一小段代码的执行时间，无需任何多余的设置。

import timeitexecution_time = timeit.timeit("sum(range(10000))", number=1000)print(execution_time)

通过timeit，你可以直接获取一段代码运行特定次数所需的时间，简单、纯粹、高效。

对于初学者来说，print函数是调试代码的万能工具。然而，当你要打印一个包含多层嵌套的复杂数据结构，比如一个嵌套的 JSON 或字典时，print的输出结果就像一堵无序的文字墙。

from pprint import pprintdata = {"users": [{"name": "Alice", "roles": ["admin", "editor"]}, {"name": "Bob", "roles": ["viewer"]}]}pprint(data)

pprint（pretty print）模块正是为了解决这个问题而生。它会以一种更美观、更易于阅读的格式打印复杂的数据结构，自动处理缩进和换行。有了它，你就能一眼看清数据的层次结构，让调试变得轻松愉快。

你是否曾为了测试某个功能，在项目目录下手动创建一个temp.txt文件，然后在测试结束后又忘记删除它？我以前经常这么做，导致项目目录变得一团糟。

**tempfile**模块让这个问题迎刃而解。它能自动为你创建临时文件或目录，并在你不再需要时自动清理它们。

import tempfilewith tempfile.NamedTemporaryFile(delete=False) as tmp: tmp.write(b"Testing temp file") print(f"Created: {tmp.name}")

使用tempfile，你无需担心清理工作，它会在程序结束时自动完成。这对于快速实验和单元测试来说，简直是完美的选择。

在 Python 中，对列表中的字典进行排序是一个常见的需求。我们通常会使用sort方法，并传入一个lambda表达式作为key参数。

users = [{"name": "Alice", "age": 30}, {"name": "Bob", "age": 25}]users.sort(key=lambda x: x["age"])

这种写法虽然可行，但当lambda表达式变得复杂时，可读性会变差。

**operator.itemgetter**模块则提供了一个更简洁、更高效的替代方案。

from operator import itemgetterusers.sort(key=itemgetter("age"))

itemgetter专门用于从可迭代对象中获取特定索引或键的值。它比lambda表达式更快，也更清晰，因为它准确地表达了你的意图：根据age这个键进行排序。

直接将一个巨大的文件（比如一个 2GB 的日志文件）全部读入内存是一个非常糟糕的主意，尤其是在内存有限的设备上（比如只有 4GB 内存的笔记本电脑）。这很可能导致内存溢出，使程序崩溃。

正确的做法是使用生成器（generator）。生成器不会一次性加载所有数据，而是按需逐行读取，这大大节省了内存。

def read_large_file(path): with open(path) as f: for line in f: yield linefor line in read_large_file("server.log"): # process each line without memory blowup

通过yield关键字，read_large_file函数变成了一个生成器。for循环每次只从文件中读取一行，然后立即进行处理。这个技巧曾帮助我在一台内存吃紧的笔记本电脑上成功处理了 2GB 的日志文件。

如果你想让自己的 Python 脚本更专业，那就把它变成一个命令行工具吧。我以前总是手动解析sys.argv来获取命令行参数，这不仅繁琐，而且容易出错。

**argparse**模块是 Python 标准库中用于解析命令行参数和选项的强大工具。它可以自动处理参数的解析、类型转换、错误提示和帮助信息的生成。

import argparseparser = argparse.ArgumentParserparser.add_argument("--name", required=True)args = parser.parse_argsprint(f"Hello, {args.name}!")

有了argparse，你可以轻松地为脚本添加各种参数，比如必填参数、可选参数、布尔参数等。这让你的脚本看起来更专业，也大大减少了用户的操作错误。

我曾经有一次因为忘记关闭数据库连接，导致脚本运行了一整夜，并锁住了数据库。那次经历让我付出了沉重的代价。

上下文管理器（context manager）是 Python 中用于自动化资源管理的神器。它通过with语句来使用，可以确保在代码块执行完毕后，资源（比如文件、网络连接、数据库连接）被正确地释放或清理。

import sqlite3with sqlite3.connect("users.db") as conn: conn.execute("CREATE TABLE IF NOT EXISTS users (id INT, name TEXT)")

当with代码块结束时，sqlite3.connect会自动提交事务并关闭数据库连接，无论代码是否发生异常。这个简单但至关重要的技巧，可以帮你避免很多意想不到的错误。

学习这些技巧不仅仅是为了让代码更短、更酷。它们让我从一个被动接受、复制粘贴代码的“码农”，变成了一个主动思考、解决问题的“开发者”。我不再害怕那些看似复杂、丑陋的任务，因为我知道 Python 本身提供了优雅的解决方案。

所以，下一次当你遇到一个编程难题时，不要急着去搜索“Python 解决 X 问题的方案”。不妨先问自己：“Python 本身有没有更优雅的方式来完成这个任务？”答案或许会让你大吃一惊。

真正的高手，从不只满足于代码能跑就行。他们追求的是清晰、高效和优雅。从我停止复制粘贴的那天起，我才真正开始像一个真正的开发者那样去思考和写作代码。希望这些技巧也能帮助你完成自己的蜕变。

来源：高效码农

标签：代码 python df import lambda表达式

本文地址：http://news.43b.com.cn/a/989127.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐