【Pandas 教程系列】- Pandas CSV 文件

管理员

Rank: 9 Rank: 9 Rank: 9

UID: 2
积分: 2929454
威望: 1414763 布
龙e币: 1514691 刀
在线时间: 13682 小时
注册时间: 2009-12-3
最后登录: 2025-4-4

Medal No.1

1^# 跳转到 » 倒序看帖

打印

字体大小: tT

龙听发表于 2024-3-6 12:54 | 只看该作者

【Pandas 教程系列】- Pandas CSV 文件

CSV（Comma-Separated Values，逗号分隔值，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。

CSV 是一种通用的、相对简单的文件格式，被用户、商业和科学广泛应用。

Pandas 可以很方便的处理 CSV 文件，本文以 nba.csv 为例，你可以下载 nba.csv 或打开 nba.csv 查看。地址：https://static.jyshare.com/download/nba.csv.txt 或 https://static.jyshare.com/download/nba.csv

实例

import pandas as pd
df = pd.read_csv('nba.csv')
print(df.to_string())

复制代码

to_string() 用于返回 DataFrame 类型的数据，如果不使用该函数，则输出结果为数据的前面 5 行和末尾 5 行，中间部分以 ... 代替。

实例

import pandas as pd
df = pd.read_csv('nba.csv')
print(df)

复制代码

输出结果为：

我们也可以使用 to_csv() 方法将 DataFrame 存储为 csv 文件：

实例

import pandas as pd
# 三个字段 name, site, age
nme = ["Google", "Runoob", "Taobao", "Wiki"]
st = ["www.google.com", "www.runoob.com", "www.taobao.com", "www.wikipedia.org"]
ag = [90, 40, 80, 98]
# 字典
dict = {'name': nme, 'site': st, 'age': ag}
df = pd.DataFrame(dict)
# 保存 dataframe
df.to_csv('site.csv')

复制代码

执行成功后，我们打开 site.csv 文件，显示结果如下：

数据处理

head()

head( n ) 方法用于读取前面的 n 行，如果不填参数 n ，默认返回 5 行。

实例 - 读取前面 5 行

import pandas as pd
df = pd.read_csv('nba.csv')
print(df.head())

复制代码

输出结果为：

Name Team Number Position Age Height Weight College Salary
0 Avery Bradley Boston Celtics 0.0 PG 25.0 6-2 180.0 Texas 7730337.0
1 Jae Crowder Boston Celtics 99.0 SF 25.0 6-6 235.0 Marquette 6796117.0
2 John Holland Boston Celtics 30.0 SG 27.0 6-5 205.0 Boston University NaN
3 R.J. Hunter Boston Celtics 28.0 SG 22.0 6-5 185.0 Georgia State 1148640.0
4 Jonas Jerebko Boston Celtics 8.0 PF 29.0 6-10 231.0 NaN 5000000.0

复制代码

实例 - 读取前面 10 行

import pandas as pd
df = pd.read_csv('nba.csv')
print(df.head(10))

复制代码

输出结果为：

Name Team Number Position Age Height Weight College Salary
0 Avery Bradley Boston Celtics 0.0 PG 25.0 6-2 180.0 Texas 7730337.0
1 Jae Crowder Boston Celtics 99.0 SF 25.0 6-6 235.0 Marquette 6796117.0
2 John Holland Boston Celtics 30.0 SG 27.0 6-5 205.0 Boston University NaN
3 R.J. Hunter Boston Celtics 28.0 SG 22.0 6-5 185.0 Georgia State 1148640.0
4 Jonas Jerebko Boston Celtics 8.0 PF 29.0 6-10 231.0 NaN 5000000.0
5 Amir Johnson Boston Celtics 90.0 PF 29.0 6-9 240.0 NaN 12000000.0
6 Jordan Mickey Boston Celtics 55.0 PF 21.0 6-8 235.0 LSU 1170960.0
7 Kelly Olynyk Boston Celtics 41.0 C 25.0 7-0 238.0 Gonzaga 2165160.0
8 Terry Rozier Boston Celtics 12.0 PG 22.0 6-2 190.0 Louisville 1824360.0
9 Marcus Smart Boston Celtics 36.0 PG 22.0 6-4 220.0 Oklahoma State 3431040.0

复制代码

tail()

tail( n ) 方法用于读取尾部的 n 行，如果不填参数 n ，默认返回 5 行，空行各个字段的值返回 NaN。

实例 - 读取末尾 5 行

import pandas as pd
df = pd.read_csv('nba.csv')
print(df.tail())

复制代码

输出结果为：

Name Team Number Position Age Height Weight College Salary
453 Shelvin Mack Utah Jazz 8.0 PG 26.0 6-3 203.0 Butler 2433333.0
454 Raul Neto Utah Jazz 25.0 PG 24.0 6-1 179.0 NaN 900000.0
455 Tibor Pleiss Utah Jazz 21.0 C 26.0 7-3 256.0 NaN 2900000.0
456 Jeff Withey Utah Jazz 24.0 C 26.0 7-0 231.0 Kansas 947276.0
457 NaN NaN NaN NaN NaN NaN NaN NaN NaN

复制代码

实例 - 读取末尾 10 行

import pandas as pd
df = pd.read_csv('nba.csv')
print(df.tail(10))

复制代码

输出结果为：

Name Team Number Position Age Height Weight College Salary
448 Gordon Hayward Utah Jazz 20.0 SF 26.0 6-8 226.0 Butler 15409570.0
449 Rodney Hood Utah Jazz 5.0 SG 23.0 6-8 206.0 Duke 1348440.0
450 Joe Ingles Utah Jazz 2.0 SF 28.0 6-8 226.0 NaN 2050000.0
451 Chris Johnson Utah Jazz 23.0 SF 26.0 6-6 206.0 Dayton 981348.0
452 Trey Lyles Utah Jazz 41.0 PF 20.0 6-10 234.0 Kentucky 2239800.0
453 Shelvin Mack Utah Jazz 8.0 PG 26.0 6-3 203.0 Butler 2433333.0
454 Raul Neto Utah Jazz 25.0 PG 24.0 6-1 179.0 NaN 900000.0
455 Tibor Pleiss Utah Jazz 21.0 C 26.0 7-3 256.0 NaN 2900000.0
456 Jeff Withey Utah Jazz 24.0 C 26.0 7-0 231.0 Kansas 947276.0
457 NaN NaN NaN NaN NaN NaN NaN NaN NaN

复制代码

info()

info() 方法返回表格的一些基本信息：

实例

import pandas as pd
df = pd.read_csv('nba.csv')
print(df.info())

复制代码

输出结果为：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 458 entries, 0 to 457 # 行数，458 行，第一行编号为 0
Data columns (total 9 columns): # 列数，9列
# Column Non-Null Count Dtype # 各列的数据类型
--- ------ -------------- -----
0 Name 457 non-null object
1 Team 457 non-null object
2 Number 457 non-null float64
3 Position 457 non-null object
4 Age 457 non-null float64
5 Height 457 non-null object
6 Weight 457 non-null float64
7 College 373 non-null object # non-null，意思为非空的数据
8 Salary 446 non-null float64
dtypes: float64(4), object(5) # 类型

复制代码

non-null 为非空数据，我们可以看到上面的信息中，总共 458 行，College 字段的空值最多。

论坛官方微信、群（期货热点、量化探讨、开户与绑定实盘）

期货论坛 - 版权/免责声明   1.本站发布源码(包括函数、指标、策略等)均属开放源码，用意在于让使用者学习程序化语法撰写，使用者可以任意修改语法內容并调整参数。仅限用于个人学习使用，请勿转载、滥用，严禁私自连接实盘账户交易。
  2.本站发布资讯(包括文章、视频、历史记录、教材、评论、资讯、交易方案等)均系转载自网络主流媒体，内容仅为作者当日个人观点，本网转载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。本网不对该类信息或数据做任何保证。不对您构成任何投资建议，不能依靠信息而取代自身独立判断，不对因使用本篇文章所诉信息或观点等导致的损失承担任何责任。
  3.本站发布资源(包括书籍、杂志、文档、软件等)均从互联网搜索而来，仅供个人免费交流学习，不可用作商业用途，本站不对显示的内容承担任何责任。请在下载后24小时内删除。如果喜欢，请购买正版，谢谢合作！
  4.龙听期货论坛原创文章属本网版权作品，转载须注明来源“龙听期货论坛”，违者本网将保留追究其相关法律责任的权力。本论坛除发布原创文章外，亦致力于优秀财经文章的交流分享，部分文章推送时若未能及时与原作者取得联系并涉及版权问题时，请及时联系删除。联系方式：http://www.qhlt.cn/thread-262-1-1.html

如何访问权限为100/255贴子：/thread-37840-1-1.html；注册后仍无法回复：/thread-23-1-1.html；微信/QQ群：/thread-262-1-1.html；网盘链接失效解决办法：/thread-93307-1-1.html

返回列表

【Pandas 教程系列】- Pandas CSV 文件

【Pandas 教程系列】- Pandas CSV 文件

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]