醋醋百科网

Good Luck To You!

python(pandas + numpy)数据分析的基础

数据 NaN 值排查,统计,排序

data.isnull()

  • data 是一个 dataframe 的结构

np.sum(data.isnull())

  • 找到缺失值的总数

data.sort_values()

  • 按照某个列进行数据的排序,
  • 或者按照某两个列进行排序

四种基本统计方法

  • 最大值 np,max() ,最小值 np.min() ,均值 np.mean() ,分位数 np.quantile()

分组 data.groupby

  • 分组: df.groupby() ,按照某个字段进行分组;返回一个分组后的对象df.groupby(by=[...])df.groupby(by=[...]) 可以按照多个字段进行分组,形成层次化的索引结构

聚合 data.agg()

  • 聚合方法灵活,能够对分组对象进行相同的聚合,也可以选择不同的聚合方法
  • 聚合 data.agg([np.mean, np.max]) 聚合的是统计方法,例如求最大值和最小值的方法;注意进行聚合的数据首先是要进行分组才能够进行聚合。
  • 聚合还可以根据具体的字段通过字典的方式设置不同的统计方法: grouped.agg({字段名:统计方法名})
  • apply 可以进行聚合运算,也可以进行按行运算
  • apply 的参数还可以是一个 lambda 函数对 df 中的某个 series 进行操作

transform

  • 返回与数据同样长度的行,无法进行聚合

pd.pivot_table()

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言