pandas基本使用方法和表的合并

阅读量：682 次

发布时间：2019-03-17

本文共 1817 字，大约阅读时间需要 6 分钟。

pandas数据处理实例及其应用

一、pandas基础使用

在进行pandas数据处理之前，首先需要导入pandas库。以下示例展示了如何读取CSV文件并进行基本操作：

import pandas as pd# 读取CSV文件，第一行为标题df = pd.DataFrame(pd.read_csv("D:/test/test.csv", header=0))# 可以选择指定编码方式（如中文需要设置编码）df = pd.DataFrame(pd.read_csv("D:/test/test.csv", header=0, encoding='gbk'))

运行上述代码后，可以通过以下命令查看数据集信息：

print("Excel的文件信息：")print(df.info())

要提取Excel中第一行数据，可以通过以下方式获取：

for key in df.keys():    print(key)# 获取第一行数据for value in df.values:    print(value)

二、数据处理操作

1. 统计字段数量

使用count方法可以统计每一行和每一列中缺失值的数量：

count_row = df.count(axis=1)print("统计Excel中的每一行的字段数量：")print(count_row)count_column = df.count(axis=0)print("统计Excel中的每一列的字段数量：")print(count_column)

2. 使用[`count_values()`]方法提取统计结果

可以通过遍历count_column的结果来获取具体的字段和对应的统计值：

for key in count_column.keys():    print(key)for value in count_column.values:    print(value)

三、数据表的合并操作

在实际应用中，常需要对数据进行合并操作。以下是以下几种合并方式及其适用场景：

1. 内连接（`inner`）

内连接是默认的连接方式，只有当左右表中共同拥有的字段值不为空时，才会保留数据。示例如下：

df_table = pd.DataFrame(pd.read_csv("D:/test/test.csv", header=0))df_table1 = pd.DataFrame(pd.read_csv("D:/test/test1.csv", header=0, encoding='gbk'))# 内连接：提取左右表共同拥有的数据df_inner = pd.merge(df_table, df_table1, how='inner')print("内连接：提取左右表id相同的数据")print(df_inner)

2. 左连接（`left`）

左连接会保留左表的所有数据，右表仅在左表的字段值不为空时显示相关记录：

# 左连接：提取左表中全部数据，右表补充右表中id相同的字段和数据df_left = pd.merge(df_table, df_table1, how='left')print("左连接：提取左表中全部数据，右表数据补充右表中id相同的字段和数据")print(df_left)

3. 右连接（`right`）

右连接相反，保留右表的所有数据，左表仅在右表字段值不为空时显示相关记录：

# 右连接：提取右表中全部数据，左表数据补充右表中id相同的字段和数据df_right = pd.merge(df_table, df_table1, how='right')print("右连接：提取右表中全部数据，左表数据补充右表中id相同的字段和数据")print(df_right)

4. 外连接（`outer`）

外连接会包含所有存在的数据，包括左右表中字段值为空的部分：

# outer连接：保留所有字段值df_outer = pd.merge(df_table, df_table1, how='outer')print("outer连接：保留所有字段值，包括id为空的数据")print(df_outer)

四、总结

通过上述具体实例，能够清晰地了解如何在pandas中读取、处理和合并数据。无论是内连接、左连接还是外连接，都可以根据实际需求选择最适合的方式进行数据操作。

转载地址：http://ovgqz.baihongyu.com/

你可能感兴趣的文章

nvm安装出现 Error retrieving “http://xxxx/SHASUMS256.txt“: HTTP Status 404 解决方法

查看>>

nvm安装以后，node -v npm 等命令提示不是内部或外部命令 node多版本控制管理 node多版本随意切换

查看>>

ny540 奇怪的排序简单题

查看>>

NYOJ 1066 CO-PRIME（数论）

查看>>

NYOJ 737：石子合并（一）（区间dp）

OAuth2 + Gateway统一认证一步步实现(公司项目能直接使用)，密码模式&授权码模式

查看>>

OAuth2 Provider 项目常见问题解决方案

查看>>

OAuth2 vs JWT，到底怎么选？

查看>>

Vue.js 学习总结（14）—— Vue3 为什么推荐使用 ref 而不是 reactive

查看>>

oauth2-shiro 添加 redis 实现版本

查看>>

OAuth2.0_JWT令牌-生成令牌和校验令牌_Spring Security OAuth2.0认证授权---springcloud工作笔记148

查看>>

OAuth2.0_JWT令牌介绍_Spring Security OAuth2.0认证授权---springcloud工作笔记147

查看>>

OAuth2.0_介绍_Spring Security OAuth2.0认证授权---springcloud工作笔记137

查看>>

pandas数据处理实例及其应用

一、pandas基础使用

二、数据处理操作

1. 统计字段数量

2. 使用[count_values()]方法提取统计结果

三、数据表的合并操作

1. 内连接（inner）

2. 左连接（left）

3. 右连接（right）

4. 外连接（outer）

四、总结

2. 使用[`count_values()`]方法提取统计结果

1. 内连接（`inner`）

2. 左连接（`left`）

3. 右连接（`right`）

4. 外连接（`outer`）