您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
学习python中的pandas有没有好的教程推荐?
数据,我们可以,方法学习python中的pandas有没有好的教程推荐?
发布时间:2020-12-06加入收藏来源:互联网点击:
回答于 2019-09-11 08:43:50
学习pandas最好的教程就是官方文档了,每一次python需要模块的更新,官方文档也会做相应的更新,官方的文档是英文的,如果翻译学习起来比较困难的话,一般在一些论坛里面也有中文翻译过来的文档,这样结合官方文档,学习pandas起来比较容易,pandas的本质是一种数据框的形式,内容跟excel操作学习相似,所以说,学习pandas的时候,里面的一些数据处理步骤,可以对比excel学习。
另外推荐CSDA论坛,这个论坛专为学习编程的IT人士建立,里面的好多内容都可以参考学习!
祝你学习愉快!
回答于 2019-09-11 08:43:50
Python的pandas库是使Python成为用于数据分析的出色编程语言的一件事。Pandas使导入,分析和可视化数据变得更加容易。它建立在NumPy和matplotlib之类的软件包的基础上,使您可以方便地进行大部分数据分析和可视化工作。
在此Python数据科学教程中,我们将使用Eric Grinstein抓取的数据,使用Pandas分析来自流行的视频游戏评论网站IGN的视频游戏评论。哪个主机赢得了“控制台大战”(就游戏的审查而言)?该数据集将帮助我们找出答案。
当我们分析视频游戏评论时,我们将了解关键的Pandas概念,例如索引。您可以继续进行下去,并在我们的许多其他Python教程之一中或通过注册Python Pandas课程来了解有关Python和Pandas的更多信息。我们的许多其他数据科学课程也都使用Pandas。
谨记一下,本教程使用Python 3.5编写,并使用Jupyter Notebook构建。您可能使用的是Python,pandas和Jupyter的更新版本,但结果应该基本相同。
用Pandas导入数据
如果您正在使用本教程,则需要下载数据集,您可以在此处进行操作。
我们将采取的第一步是读取数据。数据以逗号分隔的值或csv文件存储,其中每行用换行分隔,每列用逗号(,)分隔。这是ign.csv文件的前几行:
如您在上方看到的,文件中的每一行代表一个游戏,该游戏已经过IGN审查。这些列包含有关该游戏的信息:
1)score_phrase— IGN如何用一个词形容游戏。这链接到它收到的分数。
2)title -游戏名称。
3)url —您可以在其中查看完整评论的URL。
4)platform -审查游戏的平台(PC,PS4等)。
5)score—游戏的得分,从1.0到10.0。
6)genre —游戏类型。
7)editors_choice- N如果游戏不是编辑选择的Y话,那么是。这与得分息息相关。
8)release_year -游戏发布的年份。
9)release_month -游戏发布的月份。
10)release_day -游戏发布的那天。
还有一个前导列,其中包含行索引值。我们可以放心地忽略此列,但稍后将深入探讨哪些索引值。
为了在Python和pandas中有效地处理数据,我们需要将csv文件读取到Pandas DataFrame中。DataFrame是表示和处理表格数据的一种方式,表格数据是表格形式的数据,例如电子表格。表格数据具有行和列的格式,就像我们的csv文件一样,但是如果我们可以将其作为表格查看,则对我们来说更易于阅读和排序。
为了读入数据,我们需要使用pandas.read_csv函数。此函数将接收一个csv文件并返回一个DataFrame。以下代码将:
a.导入pandas库。我们将其重命名为,pd以便更快地输入。这是数据分析和数据科学中的标准约定,您经常会看到导入的Pandas就像pd其他人的代码一样。
b.读ign.csv入一个DataFrame,并将结果分配给一个名为的新变量,reviews以便我们可以reviews用来引用我们的数据。
读完DataFrame后,以更直观的方式看一下我们所获得的内容将很有帮助。Pandas方便地为我们提供了两种方法,可以快速地将数据打印到表中。这些功能是:
1)DataFrame.head()—打印DataFrame的前N行,其中N是您作为参数传递给函数的数字,即DataFrame.head(7)。如果不传递任何参数,则默认值为5。
2)DataFrame.tail()—打印DataFrame的最后N行。同样,默认值为5。
我们将使用该head方法查看其中的内容reviews:
我们还可以访问pandas.DataFrame.shape属性,以查看以下行reviews:
如我们所见,所有内容均已正确读取-我们有18,625行和11列。
与类似的NumPy这样的Python软件包相比,使用Pandas的一大优势是Pandas允许我们拥有具有不同数据类型的列。在我们的数据集中,reviews我们有存储浮点值(如)score,字符串值(如score_phrase)和整数(如)的列release_year,因此在此处使用NumPy会很困难,但Pandas和Python可以很好地处理它。
现在我们已经正确地读取了数据,让我们开始建立索引reviews以获取所需的行和列。
用Pandas索引DataFrames
之前,我们使用了该head方法来打印的第一5行reviews。我们可以使用pandas.DataFrame.iloc方法完成同样的事情。该iloc方法允许我们按位置检索行和列。为此,我们需要指定所需行的位置以及所需列的位置。下面的代码将reviews.head()通过选择行0到5,以及数据集中的所有列来复制我们的结果:
让我们更深入地研究我们的代码:我们指定了想要的rows 0:5。这意味着我们想要从position 0到(但不包括)position的行5。
第一行被认为是在位置0,所以选择行0:5给了我们行的位置0,1,2,3,和4。我们也需要所有列,并且使用快捷方式来选择它们。它的工作方式是这样的:如果我们不喜欢第一个位置值,例如:5,那是假设我们的意思0。如果我们忽略了最后一个位置值(如)0:,则假定我们是指DataFrame中的最后一行或最后一列。我们需要所有列,因此只指定了一个冒号(:),没有任何位置。这使我们的列从0到最后一列。以下是一些索引示例以及结果:
1)reviews.iloc[:5,:]—第一5行,以及这些行的所有列。
2)reviews.iloc[:,:] —整个DataFrame。
3)reviews.iloc[5:,5:]—从位置5开始的行,从位置开始的列5。
4)reviews.iloc[:,0] —第一列,以及该列的所有行。
5)reviews.iloc[9,:] —第十行,以及该行的所有列。
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |