pandas一维数据分组之cut和qcut

本文主要是介绍pandas一维数据分组之cut和qcut，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

对于一个一维的数值型数据，我们有时候想对其根据数值区间或者根据分位数进行分组，然后再做后续的分析，本文介绍pandas里的cut和qcut函数，实现这种快速分组操作。

cut

cut函数，将一维序列中的数值打上区间标签，参数签名如下：

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise')

其中x必须是一维数据，区间标签中的区间由bins指定，可以为一个数值序列，比如[0,2,4,6]，表示的区间为(0,2],(2,4],(4,6]；也可以为整数，比如3，表示将x所蕴含的区间长度进行三等分，其中x所蕴含的区间长度就是最大值和最小值之差。比如：

In [2]: pd.cut([0,60,100,82,50],3)
Out[2]:
[(-0.1, 33.333], (33.333, 66.667], (66.667, 100.0], (66.667, 100.0], (33.333, 66.667]]
Categories (3, interval[float64]): [(-0.1, 33.333] < (33.333, 66.667] < (66.667, 100.0]]

这里将[0,60,100,82,50]进行三等分，区间长度为100-0=100，所以每个区间长度就是33.333。返回的是Categories类型。

这里默认等分后的区间是左开右闭的，也可以通过设置right参数为False，设置区间为左闭右开。

还可以注意到，当bins参数为整数时，对于开区间的一边，会默认延展千分之一的区间长度，以包含最小值（最大值），比如上面的例子中，最小区间的左边为-0.1，而不是0，这是因为pandas将区间向左边延展了千分之一（100*0.001=0.1），从而将x的最小值0包含进去。

对于区间的精度，可以通过precision参数控制，默认为3，那么上面例子中，区间的两边的值就会保留三位小数（比如(33.333,66.667])，你也可以设置为6，从而保留6位小数。

此外，如果想返回具体的切分点，即区间的边界点，可以将retbins设为True，这样就会返回一个二元组，其中第二个元素就是对应的Bins序列，如下所示：

In [6]: pd.cut([0,60,100,82,50],3,retbins=True)
Out[6]:
([(-0.1, 33.333], (33.333, 66.667], (66.667, 100.0], (66.667, 100.0], (33.333, 66.667]]Categories (3, interval[float64]): [(-0.1, 33.333] < (33.333, 66.667] < (66.667, 100.0]],array([ -0.1       ,  33.33333333,  66.66666667, 100.        ]))

如果你只是想要将数据按照相应的逻辑分好组就行，具体区别的区间标签不重要，那么你可以设置labels为False，那么该函数就会将不同的区间从小到大用整数标记，从0开始，如下所示，只会返回对应的整数标记。

In [7]: pd.cut([0,60,100,82,50],3,labels=False)
Out[7]: array([0, 1, 2, 2, 1], dtype=int64)

当然，如果你想要对不同的区间进行一些有意义的标记，则可以将有意义的标签序列传给labels参数，这里labels参数的序列长度必须要和区间的个数相等。如下所示。

In [8]: pd.cut([0,60,100,82,50],3,labels=['a','b','c'])
Out[8]:
[a, b, c, c, b]
Categories (3, object): [a < b < c]

最后，我们更常用的可能不是将数据根据区间长度进行等分，而是指定区间边界进行划分，这时可以将指定的边界序列传给bins参数实现，如下所示。

In [11]: pd.cut([0,60,100,82,50],bins=[0,2,30,50,80])
Out[11]:
[NaN, (50.0, 80.0], NaN, NaN, (30.0, 50.0]]
Categories (4, interval[int64]): [(0, 2] < (2, 30] < (30, 50] < (50, 80]]

可以看到，如果我们指定了bins序列的话，那么默认情况下，就会严格的按照bins中的数划分区间，不会自动将区间延展千分之一，当然，如果你此时设置include_lowest参数为True，那么会自动延展千分之一，不过这个参数只对最小值work，如果你设置right为False，那么即使设置include_lowest为True，并不会自动将最大区间的右边界延展千分之一。这里还需要注意的是，如果x中的值不在指定的bins区间中的话，对应位置的标签就会为nan。

还要注意，这里bins参数如果是指定的数值序列的话，那么其必须是严格递增的；但是如果bins中如果有重复数值的话，由于区间不允许为空，因此可以通过duplicates控制行为，如果为raise，则表示会抛出异常，如果为drop，则表示自动去重。

qcut

cut函数是直接通过数值区间对输入序列进行分组，如果我们想要对输入序列进行个数等分，或者按照不同组别的size大小对输入序列进行划分，应该怎么做呢？

当然，我们可以通过所希望的区间size大小求得输入序列对应的分位数，然后将分位数作为bins传给cut函数，这种方式是完全可行的。但是pandas提供了一种更简单的实现方式，qcut函数，即使用分位数对输入序列进行size大小的切分。

qcut的函数签名如下：

pandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')

相比于cut函数，qcut函数中的参数会少一些，而且含义基本和cut函数一样。这里需要说明的就是参数q，其他参数的含义和cut函数是一样的。

对于qcut函数，会强制的将x的区间长度左延千分之一，以包含最小值，且区间强制是左开右闭的，没有参数控制。如果q为整数，代表将x按照元素个数进行q等分，即计算k*q分位数，k为整数，k*q介于0，1之间。所以，该函数最后所得到的区间就是对应的分位数，如下所示。

In [17]: pd.qcut([0,60,100,82,50],q=4,retbins=True)
Out[17]:
([(-0.001, 50.0], (50.0, 60.0], (82.0, 100.0], (60.0, 82.0], (-0.001, 50.0]]Categories (4, interval[float64]): [(-0.001, 50.0] < (50.0, 60.0] < (60.0, 82.0] < (82.0, 100.0]],array([  0,  50,  60,  82, 100], dtype=int64))

当然，你也可以自定义q，比如[0,0.2,0.30,0.50,0.80,1]，则区间边界就是对应的传入q的序列分位数。如下所示。

In [16]: pd.qcut([0,60,100,82,50],q=[0,0.2,0.30,0.50,0.80,1],retbins=True)
Out[16]:
([(-0.001, 40.0], (52.0, 60.0], (85.6, 100.0], (60.0, 85.6], (40.0, 52.0]]Categories (5, interval[float64]): [(-0.001, 40.0] < (40.0, 52.0] < (52.0, 60.0] < (60.0, 85.6] <(85.6, 100.0]],array([  0. ,  40. ,  52. ,  60. ,  85.6, 100. ]))

这篇关于pandas一维数据分组之cut和qcut的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！