千家信息网

千家信息网

请输入关键字词

热门搜索排行

最新搜索排行

导航：首页 > 互联网科技 >

TOP K使用思路是什么

发表于：2025-02-04 作者：千家信息网编辑

千家信息网最后更新 2025年02月04日，TOP K使用思路是什么，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。TOP K通用思路：1、使用Hash取模的方法将大文件划分成若干小

千家信息网最后更新 2025年02月04日TOP K使用思路是什么

TOP K使用思路是什么，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

TOP K

通用思路：

1、使用Hash取模的方法将大文件划分成若干小文件；

2、使用HashMap或者字典树（trie树）对小文件进行词频统计；

3、对小文件按照词频进行排序（堆排序等），取每个小文件的前N个；

4、将小文件的结果归并排序，再对归并后的文件取前N个。

有1亿个浮点数，如果找出期中最大的10000个？

对于第三部，首先读入前10000个数来创建大小为10000的最小堆，建堆的时间复杂度为O（mlogm）（m为数组的大小即为10000），然后遍历后续的数字，并于堆顶（最小）数字进行比较。如果比最小的数小，则继续读取后续数字；如果比堆顶数字大，则替换堆顶元素并重新调整堆为最小堆。整个过程直至1亿个数全部遍历完为止。然后按照中序遍历的方式输出当前堆中的所有10000个数字。

有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

顺序读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件（记为x0,x1,...x4999）中。这样每个文件大概是200k左右。
如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。

给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？

申请512MB的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。

8位整数可以表示的最大十进制数值为99999999。如果每个数字对应于位图中一个bit位，那么存储8位整数大约需要99MB。因为1B=8bit，所以99Mbit折合成内存为99/8=12.375MB的内存，即可以只用12.375MB的内存表示所有的8位数电话号码的内容。

给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

如果使用布隆过滤器，那么问题就很好办了，4G的内存足以容纳300多亿的bit，所以足够处理了，先将a文件中的url都放入布隆过滤器，之后遍历b文件，对每个url都询问布隆过滤器看其是否已经存在，如果存在，则此条URL输入结果文件。

看完上述内容，你们掌握TOP K使用思路是什么的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注行业资讯频道，感谢各位的阅读！

文件内存大小数字个数最小号码方法排序思路最大内容整数过滤器问题频率布隆统计字节更多数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全中外文综合性数据库及其特点 zabbix5数据库读写分离分布式传感网络技术两个安卓软件共用一个数据库 pc数据库 c 数据库防注入南通网络技术开发直销软件开发过程中质量属性红警怎么知道服务器在哪里快速通过三级网络技术多个条件查询数据库影之刃服务器找不到数据库幽默段子周北安网络安全庭邦网络技术有限公司招聘怎么制作数据库软件鸠鸠互联网科技的董事长火电厂网络安全防护网络安全的概念界定杭州南曙网络技术有限公司 w7服务器管理器系统下载国家网络安全宣传周主题公园纪委网络技术中心年网络安全知识竞赛辽源市公安局网络安全走的网络安全员 ktv服务器怎么加歌中兴西安软件开发待遇怎么样网络技术科工作总结北京新浪彩通网络技术公司

相关文章