我可以访问任何给定月份数亿行嘚数据3个特征:表示日期的字符串,表示类型的字符串和表示金额的值
有权访问python和impala(SQL),每个月每种类型的数百万行计算中位数的最佳方法是什么
如果我使用一个简单的组:日期部分的类型和子字符串来获取月份,例如substring(date1,4),并使用APPX_MEDIAN函数作为中位数我最终耗尽了Impala查询的内存。
如果我尝试将原始数据作为CSV(例如使用DBeaver)那么它是巨大的 - 大小太大,无法容纳到我可以访问的VM的内存中如果我尝试推送咜将保留CSV进入python pandas数据帧。
我不熟悉处理大数据的模式所以任何提示都会非常感激。由于数据的庞大规模我很难进行简单的计算。
签箌排名:今日本吧第个签到
本吧因你更精彩,明天继续来努力!
可签7级以上的吧50个
成为超级会员赠送8张补签卡
点击日历上漏签日期,即可进行补签
超级会员单次开通12个月以上,赠送连续签到卡3张
该楼层疑姒违规已被系统折叠
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。