11-26 02:23 阅读 208

Pandas怎么的IO操作？（Pandas的IO操作方法）

Pandas IO操作实例

读取文本文件的两个主要功能是read_csv()和read_table()。他们都使用相同的解析代码将表格数据智能地转换为DataFrame对象：

 pandas.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer',
 names=None, index_col=None, usecols=None

 pandas.read_csv(filepath_or_buffer, sep='\t', delimiter=None, header='infer',
 names=None, index_col=None, usecols=None

将此数据另存为temp.csv并对其进行操作。

 S.No,Name,Age,City,Salary 1,Tom,28,Toronto,20000 2,Lee,32,HongKong,3000 3,Steven,43,Bay Area,8300 4,Ram,38,Hyderabad,3900

read.csv

read.csv从csv文件读取数据并创建一个DataFrame对象。

示例

 import pandas as pd
 df=pd.read_csv("temp.csv")
 print df

运行结果如下：

S.No     Name   Age       City   Salary0     1      Tom    28    Toronto    200001     2      Lee    32   HongKong     30002     3   Steven    43   Bay Area     83003     4      Ram    38  Hyderabad     3900

自定义索引

这将在csv文件中指定一列，以使用index_col自定义索引。

示例

 import pandas as pd
 df=pd.read_csv("temp.csv",index_col=['S.No'])
 print df

运行结果如下：

S.No   Name   Age       City   Salary1       Tom    28    Toronto    200002       Lee    32   HongKong     30003    Steven    43   Bay Area     83004       Ram    38  Hyderabad     3900

转换器

列的dtype可以作为dict传递。

示例

 import pandas as pd
 df = pd.read_csv("temp.csv", dtype={'Salary': np.float64})
 print df.dtypes

运行结果如下：

S.No       int64
Name      objectAge        int64
City      objectSalary   float64
dtype: object

默认情况下，Salary列的dtype为int，但结果将其显示为float，因为我们已明确转换了类型。因此，数据看起来像float。

Thus, the data looks like float −

   S.No   Name   Age      City    Salary0   1     Tom   28    Toronto   20000.01   2     Lee   32   HongKong    3000.02   3  Steven   43   Bay Area    8300.03   4     Ram   38  Hyderabad    3900.0

标题名称

使用names参数指定标题的名称。

示例

 import pandas as pd
  
 df=pd.read_csv("temp.csv", names=['a', 'b', 'c','d','e'])
 print df

运行结果如下：

   a        b    c           d        e0   S.No     Name   Age       City   Salary1      1      Tom   28     Toronto    200002      2      Lee   32    HongKong     30003      3   Steven   43    Bay Area     83004      4      Ram   38   Hyderabad     3900

请注意，标头名称后附加了自定义名称，但是文件中的标头尚未消除。现在，我们使用header参数将其删除。

如果标题不在第一行中，则将行号传递给标题。这将跳过前面的行。

示例

 import pandas as pd 
 df=pd.read_csv("temp.csv",names=['a','b','c','d','e'],header=0)
 print df

运行结果如下：

  a        b    c           d        e0  S.No     Name   Age       City   Salary1     1      Tom   28     Toronto    200002     2      Lee   32    HongKong     30003     3   Steven   43    Bay Area     83004     4      Ram   38   Hyderabad     3900

skiprows

skiprows跳过指定的行数。

示例

 import pandas as pd
 df=pd.read_csv("temp.csv", skiprows=2)
 print df

运行结果如下：

    2      Lee   32    HongKong   30000   3   Steven   43    Bay Area   83001   4      Ram   38   Hyderabad   3900