摘要:Python的pandas库是数据分析的核心工具,提供了高效的数据结构和操作功能。以下是其基础知识的总结:
Python的pandas库是数据分析的核心工具,提供了高效的数据结构和操作功能。以下是其基础知识的总结:
1. 核心数据结构
Series
一维带标签的数组,类似字典或表格中的一列。创建示例:python
import pandas as pd
s = pd.Series([1, 3, 5, 7], name="Numbers")
DataFrame
二维表格型数据结构,类似Excel或SQL表。创建示例:python
data = {"Name": ["Alice", "Bob"], "Age": [25, 30]}
df = pd.DataFrame(data)
2. 数据读写
读取数据:python
# 读取CSV
df = pd.read_csv("data.csv", encoding="utf-8")
# 读取Excel
df = pd.read_excel("data.xlsx", sheet_name="Sheet1")
写入数据:python
df.to_csv("output.csv", index=False) # 不保存索引
df.to_excel("output.xlsx")
3. 数据查看与检查
常用方法:python
df.head(3) # 查看前3行
df.tail # 查看后5行(默认)
df.shape # 显示行数和列数
df.info # 数据类型和内存信息
df.describe # 数值列的统计摘要
df.isnull # 检查缺失值
4. 数据选择与过滤
选择列:python
df["Name"] # 单列 → Series
df[["Name", "Age"]] # 多列 → DataFrame
选择行:python
df.iloc[0] # 按位置选择第1行
df.loc[0] # 按索引标签选择
df[df["Age"] > 25] # 布尔索引筛选
修改列:python
df["New_Col"] = df["Age"] * 2 # 新增列
df.rename(columns={"Age": "年龄"}, inplace=True) # 重命名
df.drop("New_Col", axis=1, inplace=True) # 删除列
5. 数据清洗
处理缺失值:python
df.dropna # 删除含缺失值的行
df.fillna(0) # 用0填充缺失值
处理重复值:python
df.drop_duplicates # 删除重复行
类型转换:python
df["Age"] = df["Age"].astype(float) # 转换为浮点型
6. 数据排序与分组
排序:python
df.sort_values("Age", ascending=False) # 按年龄降序排列
分组聚合:python
df.groupby("City")["Sales"].sum # 按城市分组计算总销售额
透视表:python
pd.pivot_table(df, values="Sales", index="City", columns="Year")
7. 数据合并
合并多个DataFrame:python
pd.concat([df1, df2], axis=0) # 垂直合并
pd.merge(df1, df2, on="ID") # 根据键"ID"连接
8. 时间序列处理
转换时间格式:python
df["Date"] = pd.to_datetime(df["Date"])
df["Year"] = df["Date"].dt.year # 提取年份
重采样(按时间聚合):python
df.resample("M", on="Date").sum # 按月汇总
9. 常用函数
字符串操作:df["Name"].str.upper映射替换:df["Gender"].map({"M": "Male", "F": "Female"})应用函数:df.apply(lambda x: x*2)10. 学习资源
官方文档:pandas.pydata.org推荐书籍:《Python for Data Analysis》掌握这些基础操作后,可以高效处理结构化数据,进行清洗、转换和分析。实际项目中结合NumPy、Matplotlib等库使用效果更佳。
来源:老客数据一点号