pandas.groupby().rank()用法详解-白红宇

pandas.groupby().rank()用法详解

阅读量：345 次

发布时间：2019-03-04

本文共 1111 字，大约阅读时间需要 3 分钟。

Pandas.DataFrame.groupby()是数据处理中的一个强大工具，用于根据特定条件对数据进行分组和聚合操作。它支持通过映射器、函数或特定列来实现分组，可应用于大规模数据的高效处理。

Parameters

groupby()函数接受多个参数以控制分组方式：

by：可以是映射器、函数、标签或标签列表，用于确定分组依据。
- 若是函数，会对每个索引值调用该函数。
- 若是dict、Series或数组，会根据其值或标签来分组。
- 若是标签或标签列表，可直接根据DataFrame的列来分组。

axis：决定沿行（0）或列（1）进行分组，默认为0。

level：对于多层索引的情况，可指定要分组的层级，默认为None。

as_index：布尔值，默认为True，分组结果中保留分组标签。

sort：布尔值，默认True，排序分组结果。

group_keys：布尔值，默认True，apply时保留分组标签。

squeeze：布尔值，默认True，压缩结果维度以保持一致性。

observed：布尔值，默认False，只显示分类变量的观测值。

dropna：布尔值，默认True，处理缺失值时是否删除分组键。

Returns

groupby对象包含分组信息，可用于后续聚合操作。

Pandas.DataFrame.rank()用于对数据框沿指定轴进行排名。默认方法是按平均值排名，适用于处理重复值时的排名规则。

Parameters

rank()函数接受以下参数：

method：{‘average’, ‘min’, ‘max’, ‘first’, ‘dense’}，默认‘average’，决定相同值的排名方法。
- average：取相同值的平均排名。
- min：取相同值中最低的排名。
- max：取相同值中最高的排名。
- first：按原数据顺序依次分配排名。
- dense：与‘min’类似，但排名连续递增。

numeric_only：筛选出仅包含数值列的数据，默认None。

na_option：默认‘keep’，处理缺失值时的行为。

ascending：布尔值，默认True，决定排序方向。

pct：布尔值，默认False，返回百分比排名。

Methods

method参数决定了相同值的排名方式，例如：

average：计算相同值的平均排名。

min：返回相同值中最低的排名。

max：返回相同值中最高的排名。

first：按照原数据中出现的顺序依次分配排名。

dense：确保排名连续递增，即使中间缺失值也不会跳跃。

References

本文内容基于Pandas官方文档，具体参数和功能细节请参考官方资料以获取最新信息。

转载地址：http://zdge.baihongyu.com/

你可能感兴趣的文章

PLC通讯方式

Please install 'webpack-cli' in addition to webpack itself to use the CLI

Ploly Dash，更新一个Dash应用程序JJJA上的实时人物

Ploly烛台的定制颜色

Ploly：如何在Excel中嵌入完全交互的Ploly图形？

Plotly (Python) 子图:填充构面和共享图例

Plotly 中的行悬停文本

Plotly 停用 x 轴排序

Plotly 域变量解释(多图)

Plotly 绘制表面 3D 未显示

Plotly-Dash 存在未知问题并创建“加载依赖项时出错“；通过使用 Python-pandas.date_range

Plotly-Dash:如何过滤具有多个数据框列的仪表板?

Plotly:如何为 x 轴上的时间序列设置主要刻度线/网格线的值?

Plotly:如何从 x 轴删除空日期?

Plotly:如何从单条迹线制作堆积条形图?

Plotly:如何以 Root 样式绘制直方图，仅显示直方图的轮廓?

Plotly:如何使用 Plotly Express 组合散点图和线图?

Plotly:如何使用 plotly.graph_objects 和 plotly.express 定义图形中的颜色?

Plotly:如何使用 Python 对绘图对象条形图进行颜色编码?