3.1
1.
Zipf原则是指典型的频率分布是高度偏斜的,存在很多频繁元素。()×
2.在数据流模型中,从数据流中可以计算简单的函数,如最大值、最小值、求和等,且处理这些函数时通常使用单个寄存器s。()√
3.数据流模型中,数据流是指来自某个域中的元素序列。()√
4.在数据流模型中,内存远远大于数据的规模。()×
3.2
1.
频繁元素计算算法又称为()算法。答案:MG
A、MM
B、MG
C、GM
D、MP
2.频繁元素计算算法有效的原因是源于()。答案:Zipf原则
A、取近似解
B、证据引理
C、错误界限和k成反比
D、Zipf原则
3.在频繁元素计算算法中,计数器x减少的次数依赖于有几个减少计数器的步骤。()√
4.在频繁元素计算算法中,当数据流中元素的总个数远大于估计值与真实值相差的最多值时,可以得到频繁项一个好的估计。√
3.3
1.
时间亚线性算法的思想是:利用特定子图联通分量的数量估计最小生成树的()。答案:权重
A、近似值
B、精确值
C、权重
D、界限
2.求最小生成树是一个贪心法,可以用()算法来解决。答案:Prime
A、Prime
B、并行
C、MG
D、内存
3.对联通分量个数的估计可以利用随机化方法。√
3.4
1.
对于输入n个数的数组(x1,x2,x3,……,xn),输出:这个数组是否有序。ℇ远离意味着必须删除大于()个元素才能保证剩下的元素有序。答案:ℇn
A、ℇ-n
B、ℇn
C、ℇ/n
D、n/ℇ
2.如果一次测试以大于等于p的概率获得一个证据,那么s=2/p轮测试得到证据的概率大于等于3/4。×
3.关于证明如果输入ℇ远离有序,则存在大于ℇn个“坏索引”的问题,可以采用证明其逆否命题的方法。√
4.1
1.
下列选项中叙述正确的是()。D
A、磁盘的访问可以随机读、随机取
B、磁盘系统传输大规模连续的数据块的范围是18-32k
C、磁盘访问比主存访问的速度快
D、大多数程序在RAM模型上运行
2.对于大数据而言,标准计算理论模型失效的原因之一是内存是有限的,无法存储所有的内存。()√
3.当内存不够或者算法设计不好时,如果数据量达到一定规模以上,运行时间会急剧增加。√
4.现代计算机有复杂的存储层次,存储单元的访问是以块为单位的数据移动。()√
4.2.1
1.
外存归并排序,以()为单位进行调度。答案:块
A、比特
B、兆
C、块
D、层
2.排序分为内部排序和外部排序,外部排序是因排序的数据很大,一次不能容纳全部的排序内容,在排序过程中需要访问外存。()√