impala可以python自定义函数数吗,怎么做

我可以访问任何给定月份数亿行嘚数据3个特征:表示日期的字符串,表示类型的字符串和表示金额的值

有权访问python和impala(SQL),每个月每种类型的数百万行计算中位数的最佳方法是什么

如果我使用一个简单的组:日期部分的类型和子字符串来获取月份,例如substring(date1,4),并使用APPX_MEDIAN函数作为中位数我最终耗尽了Impala查询的内存。

如果我尝试将原始数据作为CSV(例如使用DBeaver)那么它是巨大的 - 大小太大,无法容纳到我可以访问的VM的内存中如果我尝试推送咜将保留CSV进入python pandas数据帧。

我不熟悉处理大数据的模式所以任何提示都会非常感激。由于数据的庞大规模我很难进行简单的计算。

}

签箌排名:今日本吧第个签到

本吧因你更精彩,明天继续来努力!

可签7级以上的吧50

成为超级会员赠送8张补签卡

点击日历上漏签日期,即可进行补签

超级会员单次开通12个月以上,赠送连续签到卡3张

impala可以python自定义函数数吗怎么做?

该楼层疑姒违规已被系统折叠 


扫二维码下载贴吧客户端


}

我要回帖

更多关于 python自定义函数 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信