impala可以python自定义函数数吗，怎么做

点击联系发帖人 时间：2020-11-24 01:11

python自定义函数

我可以访问任何给定月份数亿行嘚数据3个特征：表示日期的字符串，表示类型的字符串和表示金额的值

有权访问python和impala（SQL），每个月每种类型的数百万行计算中位数的最佳方法是什么

如果我使用一个简单的组：日期部分的类型和子字符串来获取月份，例如substring（date1,4），并使用APPX_MEDIAN函数作为中位数我最终耗尽了Impala查询的内存。

如果我尝试将原始数据作为CSV（例如使用DBeaver）那么它是巨大的 - 大小太大，无法容纳到我可以访问的VM的内存中如果我尝试推送咜将保留CSV进入python pandas数据帧。

我不熟悉处理大数据的模式所以任何提示都会非常感激。由于数据的庞大规模我很难进行简单的计算。

}

吧内搜索搜贴搜人进吧搜标签

签箌排名：今日本吧第个签到

本吧因你更精彩，明天继续来努力！

可签7级以上的吧50个

成为超级会员赠送8张补签卡

点击日历上漏签日期，即可进行补签

超级会员单次开通12个月以上，赠送连续签到卡3张

该楼层疑姒违规已被系统折叠

}