数据分析之pandas

CATALOG

numpy(数据计算)+pandas(数据提取)+matplotlib(可视化图表) 自学数据分析期间的学习笔记。

pandas基础

如果你想学习Pandas，建议先看两个网站。

（2）十分钟入门Pandas：10 Minutes to pandas

在第一次学习Pandas的过程中，你会发现你需要记忆很多的函数和方法。所以在这里我们汇总一下Pandas官方文档中比较常用的函数和方法，以方便大家记忆。

Import pandas as pd
Import numpy as np
s = pd Series([1,3,6,np.nan,44,1])
s
dates = pd.date_range('20160101',periods=6)#随机生成六个日期
dates

df = pd.DateFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
df1 = pd.DataFrame(np.arange(12).reshape((3,4)))#默认
df1
df2 = pd.DateFrame({'A':1.,
'B':pd.Timestamp('20130102'),
'C':pd.Series(1,index=list(range(4)),dtype='float32'),
'D':np.array([3] * 4,dtype='int32'),
'E':pd.Categorical(["test","train","test","train"]),
'F':'foo'})
df2
df2.dtypes#所有列的类型
df2.index#所有列的序号
df2.columns
df2.values
df2.describe() #运算数字形式
df2.T #转置
df2.sort_index(axis=1,ascending=False)#正排序
df2.sort_index(axis=0,ascending=False)#倒排序
df2.sort_values(by='E')#根据值排序

关键缩写和包导入

在这个速查手册中，我们使用如下缩写：

df：任意的Pandas DataFrame对象 s：任意的Pandas Series对象

同时我们需要做如下的引入：

import pandas as pd import numpy as np

导入数据

pd.read_csv(filename)：从CSV文件导入数据
pd.read_table(filename)：从限定分隔符的文本文件导入数据
pd.read_excel(filename)：从Excel文件导入数据
pd.read_sql(query, connection_object)：从SQL表/库导入数据
pd.read_json(json_string)：从JSON格式的字符串导入数据
pd.read_html(url)：解析URL、字符串或者HTML文件，抽取其中的tables表格
pd.read_clipboard()：从你的粘贴板获取内容，并传给read_table()
pd.DataFrame(dict)：从字典对象导入数据，Key是列名，Value是数据

导出数据

df.to_csv(filename)：导出数据到CSV文件
df.to_excel(filename)：导出数据到Excel文件
df.to_sql(table_name, connection_object)：导出数据到SQL表
df.to_json(filename)：以Json格式导出数据到文本文件

生成对象

pd.DataFrame(np.random.rand(20,5))：创建20行5列的随机数组成的DataFrame对象
pd.Series(my_list)：从可迭代对象my_list创建一个Series对象
df.index = pd.date_range(‘1900/1/30’, periods=df.shape[0])：增加一个日期索引

索引

df.index #获取索引
df.index=[‘x’,’y]#设置索引的值
df.set_index(“country”,drop=False)#指定某一列作为索引
df.set_index(“country”).index.unique#返回index的唯一值
s1 [“a”] [“b”]#从series复合索引中取值
s1[“a”,”b”]#从series复合索引中取值
df.loc[“a”].loc[“b”]#从dataframe复合索引中取值

查看检查数据

df.columns#列名
df.value#df中的值，二维数组
df.shape#形状,查看行数和列数
df.dtypes#数据类型
df.ndim#维度
df.T#转置
df.head(n)：查看DataFrame对象的前n行
df.tail(n)：查看DataFrame对象的最后n行
df.info()：查看索引、数据类型和内存信息
df.describe()：查看数值型列的汇总统计,只展示数值型
unique = effective_data[“毕业学校”].unique()#某一列的唯一值
df.value_counts(dropna=False)：查看Series对象的计数
df.apply(pd.Series.value_counts)：查看DataFrame对象中每一列的唯一值和计数
effective_data.isin([“北京林业大学”])#成员资格
DataFrame.to_numpy()

数据选取

取行取列的注意点：

[]写数组表示取行，对行进行操作，写字符串表示去列索引对列进行操作。

df[col]：根据列名，并以Series的形式返回列
df[[col1, col2]]：以DataFrame形式返回多列
df[0:3]：切片前三行
df[‘20130102’:’20130104’]：按索引切片

按标签选择

都可以选中，比切片多选一行。

df.loc[dates[0]] #用标签提取一行数据
df.loc[‘index_one’]：按索引选取数据
df.loc[:, [‘A’, ‘B’]]#用标签选择多列数据
df.loc[ [‘A’, ‘B’],:]#用标签选择多行数据
df.loc[‘a’,’z’]#a行z列的数据
df.loc[‘20130102’:’20130104’, [‘A’, ‘B’]]#用标签切片，多行多列的值
df.loc[‘20130102’, [‘A’, ‘B’]]#返回对象降维
df.loc[dates[0], ‘A’]#提取标量值
df.at[dates[0], ‘A’]#提取标量值

按位置选择

df.iloc[0]：按位置选取数据
df.iloc[3:5, 0:2]#整数切片
df.iloc[[1, 2, 4], [0, 2]]#用整数列表按位置切片
df.iloc[1:3, :]#显式整行切片
df.iloc[:, 1:3]#显式整列切片
df.iat[1, 1]#显式提取值
df.iat[1, 1]#快速访问标量，与上述等效
df.iloc[0,:]：返回第一行
df.iloc[0,0]：返回第一列的第一个元素

布尔索引

df[df.A > 0]#用单列的值选择数据

df[df[‘clo].str.len()>4]&(df[“clo2”]>700)]#选择clo字符串长度>4并且

df[df > 0]#选择 DataFrame 里满足条件的值

赋值

s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range(‘20130102’, periods=6))#用索引自动对齐新增列的数据

df.at[dates[0], ‘A’] = 0#按标签赋值

df.iat[0, 1] = 0#按位置赋值

df.loc[:, ‘D’] = np.array([5] * len(df))#按 NumPy 数组赋值

df2[df2 > 0] = -df2#用 where 条件赋值

缺失值

df1.dropna(how=’any’)#删除所有含缺失值的行 any只要有一行nan /all所有都为nan

df1.fillna(value=5)#填充缺失值

pd.isna(df1)#提取 nan 值的布尔掩码

pd.isnull(df1)#true为nan

df.fillna(100)#填充nan的值，不过一般填充中位数或者均值

df.filllna(t2.mean())#填充平均值

t2[“age”].fillna(t2[“age”].mean())#对age列进行填充

运算

数据清理

df.columns = [‘a’,’b’,’c’]：重命名列名
pd.isnull()：检查DataFrame对象中的空值，并返回一个Boolean数组
pd.notnull()：检查DataFrame对象中的非空值，并返回一个Boolean数组
df.dropna()：删除所有包含空值的行
df.dropna(axis=1)：删除所有包含空值的列
df.dropna(axis=1,thresh=n)：删除所有小于n个非空值的行
df.fillna(x)：用x替换DataFrame对象中所有的空值
s.astype(float)：将Series中的数据类型更改为float类型
s.replace(1,’one’)：用‘one’代替所有等于1的值
s.replace([1,3],[‘one’,’three’])：用’one’代替1，用’three’代替3
df.rename(columns=lambda x: x + 1)：批量更改列名
df.rename(columns={‘old_name’: ‘new_ name’})：选择性更改列名
df.set_index(‘column_one’)：更改索引列
df.rename(index=lambda x: x + 1)：批量重命名索引

数据排序Sort

df[df[col] > 0.5]：选择col列的值大于0.5的行
df2.sort_index(axis=1,ascending=False)#正排序
df2.sort_index(axis=0,ascending=False)#倒排序
df.sort_values(col1)：按照列col1排序数据，默认升序排列
df.sort_values(col2, ascending=False)：按照列col1降序排列数据
df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，后按col2降序排列数据
data.apply(np.mean)：对DataFrame中的每一列应用函数np.mean
data.apply(np.max,axis=1)：对DataFrame中的每一行应用函数np.max

groupby分组

groupby对象能够遍历，能够调用聚合方法

df.groupby(by=””)：返回一个按列col进行分组的Groupby对象
df.groupby([col1,col2])：返回一个按多列进行分组的Groupby对象
df.groupby(col1)[col2]：返回按列col1进行分组后，列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：创建一个按列col1进行分组，并计算col2和col3的最大值的数据透视表
df.groupby(col1).agg(np.mean)：返回按列col1分组的所有列的均值

数据合并与拼接

merge方法主要基于两个dataframe的共同列进行合并；

join方法主要基于两个dataframe的索引进行合并；

concat方法是对series或dataframe进行行拼接或列拼接。

df1.append(df2)：将df2中的行添加到df1的尾部
df.concat([df1, df2],axis=1)：将df2中的列添加到df1的尾部
df1.join(df2,on=col1,how=’inner’)：对df1的列和df2的列执行SQL形式的join
pd.merge()列合并

数据统计

df.describe()：查看数据值列的汇总统计
df.mean()：返回所有列的均值
df.mean(1)：返回所有行的均值
df.corr()：返回列与列之间的相关系数
df.count()：返回每一列中的非空值的个数
df.max()：返回每一列的最大值
df.min()：返回每一列的最小值
df.median()：返回每一列的中位数
df.std()：返回每一列的标准差
df.value_counts()：统计值出现的次数

时间序列

datatime = pd.date_range(start=”20200701”,end=”20200731”,freq=”10D”)#freq控制频率 D每日历日。B工作日，H每小时，T或min每分，S每秒

datatime = pd.date_range(start=”20200701”,periods=10,freq=”10D”)#periods控制个数

pandas学习笔记

CATALOG

pandas基础

关键缩写和包导入

导入数据

导出数据

生成对象

索引

查看检查数据

数据选取

布尔索引

赋值

缺失值

运算

数据清理

数据排序Sort

groupby分组

数据合并与拼接

数据统计

时间序列

FEATURED TAGS

FRIENDS

CATALOG

pandas基础

关键缩写和包导入

导入数据

导出数据

生成对象

索引

查看检查数据

数据选取

布尔索引

赋值

缺失值

运算

数据清理

数据排序Sort

groupby分组

数据合并与拼接

数据统计

时间序列

相关文章

FEATURED TAGS

FRIENDS