前言
使用 pymongo 进行 group by 操作有两种基本方式,他们都是 mongodb 的原生命令,于 Collection 对象上调用。
def aggregate(self, pipeline, **kwargs): def group(self, key, condition, initial, reduce, finalize=None, **kwargs):
示例数据
演示用的数据为一个订单表,含有以下字段:
Order
_id: ObjectID
userid: int
itemid: int
amount: int
time: string
主要任务为:
- 统计某个时间区间内每个 userid 的订单数
- 统计某个时间区间内每组 (userid, itemid) 共售出多少 amount
即分别为:单键分组和多键分组
aggregate
聚合操作只接受一个列表类型的参数 —— pipeline。其每一个元素都是一步操作(stage)。全部可用的 stage 可参见:
https://docs.mongodb.com/manual/meta/aggregation-quick-reference/#stages
注意 pipline 里面的 stage 是有序且可重复的,mongodb 会顺序执行,因此一定要记得把像 $match 这样的 stage 放前面。
单键分组
start_time = '2010-10-10 00:00:00' end_time = '2010-10-10 23:59:59' match = { 'time': { '$gte': start_time, '$lte': end_time, } } groupby = 'userid' group = { '_id': "$%s" % (groupby if groupby else None), 'count': {'$sum': 1} } ret = collection.aggregate( [ {'$match': match}, {'$group': group}, ] ) > ret [{'_id': 123, 'count': 500}, ...]
$group 指定了返回数据的格式,其中 _id 字段是分组的键。
多键分组
groupby = ['itemid', 'userid'] group = { '_id': {key: ('$%s' % key) for key in groupby} or {'None': '$None'}, 'count': {'$sum': '$amount'} } ret = collection.aggregate( [ {'$match': match}, {'$group': group}, ] ) > ret [{'_id': {'itemid': 111, 'user_id': 123}, 'count': 100}, ...]
这里与单键分组的区别仅在于 _id 的类型,改成了一个字典,从而允许多键组合。
为了提高通用性,建议始终使用字典的格式。
另外,既然字符串和字典都可以做键,那么列表行不行呢?答案是不行,列表里的元素,(如 '$userid') 并不会被自动识别为字段,而是仅作一般字符串处理。
最后关于 aggregate 中可用的运算操作符,可参见:
https://docs.mongodb.com/manual/reference/operator/aggregation/#accumulators
如其中的 $addToSet 也是颇有用处,可以用来实现 “统计每个人都买过哪些 itemid” 这样的功能:
group = { '_id': {'userid': '$userid'}, 'dist_itemids': {'$addToSet': '$itemid'}, }
group
相较于 aggregate 的全能,group 是专门处理分组操作的一个命令,因此这个方法的参数也更明确,主要参数为:
- key list, 分组的键
- condition dict,过滤条件
- initial dict,初始值
- reduce string/bson.Code, js 的 reduce 函数
例:
key = ['userid', 'itemid'] condition = { 'time': { '$gte': start_time, '$lte': end_time, } } initial = {'count': 0} reducer = Code(""" function(obj, prev) { prev.count = prev.count + obj.amount } """) ret = collection.group(key, condition, initial, reducer) > ret [{'userid': 110, 'itemid': 123, 'count': 500.0}, ...]
这里的分组数据聚合,是通过 reduce 函数实现的,这个函数与 python 的 reduce 不同,它不需要返回值,而是直接修改 prev 参数即可,这个参数会自动代入下一次调用。这可能是 js 的实现。
须注意的是 js 默认返回浮点数。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对的支持。
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!
昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。
这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?
更新日志
- 凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
- 刘嘉亮《亮情歌2》[WAV+CUE][1G]
- 红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
- 【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
- 邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
- 群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
- 理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
- 公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
- 群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
- 群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
- 卫兰《DAUGHTER》【低速原抓WAV+CUE】
- 公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
- ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]