大规模数据处理学习03
## Top K算法当数据规模变大会遇到哪些问题
---
1.内存占用:
比如1000亿行的文件或者表,然后再把销量统计结果一行一行读进
后面的堆树/优先级队列里,肯定不可信,对于TB级的交易记录数
据,很难找到单台计算机容纳那么大的哈希表
2.磁盘I/O延时
一次磁盘读取大概需要10ms的时间
### 大规模分布式解决方案
需要把每一步从简单的函数算法,升级为计算集群的分布式算法
|
楼主: a1032077316
|
615
1
[学习笔记] 【学习笔记】大规模数据处理学习03 ## Top K算法当数据规模变大会遇到哪些问 ... |
|
已卖:14份资源 本科生 83%
-
|
| ||
|
|
jg-xs1京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明


