回帖:查看、检查、统计、属性
df.head(n) # 查看 DataFrame 对象的前n行df.tail(n) # 查看 DataFrame 对象的最后n行df.sample(n) # 查看 n 个样本,随机df.shape # 查看行数和列数df.info() # 查看索引、数据类型和内存信息df.describe() # 查看数值型列的汇总统计df.dtypes # 查看各字段类型df.axes # 显示数据行和列名df.mean() # 返回所有列的均值df.mean(1) # 返回所有行的均值,下同df.corr() # 返回列与列之间的相关系数df.count() # 返回每一列中的非空值的个数df.max() # 返回每一列的最大值df.min() # 返回每一列的最小值df.median() # 返回每一列的中位数df.std() # 返回每一列的标准差df.var() # 方差s.mode() # 众数s.prod() # 连乘s.cumprod() # 累积连乘,累乘df.cumsum(axis=0) # 累积连加,累加s.nunique() # 去重数量,不同值的量df.idxmax() # 每列最大的值的索引名df.idxmin() # 最小df.columns # 显示所有列名df.team.unique() # 显示列中的不重复值# 查看 Series 对象的唯一值和计数, 计数占比: normalize=Trues.value_counts(dropna=False)# 查看 DataFrame 对象中每一列的唯一值和计数df.apply(pd.Series.value_counts)df.duplicated() # 重复行df.drop_duplicates() # 删除重复行# set_option、reset_option、describe_option设置显示要求pd.get_option()# 设置行列最大显示数量,None 为不限制pd.options.display.max_rows = Nonepd.options.display.max_columns = Nonedf.col.argmin() # 最大值[最小值 .argmax()] 所在位置的自动索引df.col.idxmin() # 最大值[最小值 .idxmax()] 所在位置的定义索引# 累计统计ds.cumsum() # 前边所有值之和ds.cumprod() # 前边所有值之积ds.cummax() # 前边所有值的最大值ds.cummin() # 前边所有值的最小值# 窗口计算(滚动计算)ds.rolling(x).sum() #依次计算相邻x个元素的和ds.rolling(x).mean() #依次计算相邻x个元素的算术平均ds.rolling(x).var() #依次计算相邻x个元素的方差ds.rolling(x).std() #依次计算相邻x个元素的标准差ds.rolling(x).min() #依次计算相邻x个元素的最小值ds.rolling(x).max() #依次计算相邻x个元素的最大值