南开20春学期(1709、1803、1809、1903、1909、2003)《大数据开发技术(一)》在线作业[答案]满分答案
C.分析工具
D.信息图表
2.UMP系统借助于()来实现分布式数据库服务
A.Zookeeper
B.RabbitMQ
C.Mnesia
D.LVS
3.Hbase中采用()保证系统出错时及时恢复
A.客户端
B.StoreFile
C.MemStore
D.Hlog
4.以下亚马逊的产品中哪个是数据仓库
A.Redshift
B.RDS
C.ElastiCache
D.DynamoDB
5.HDFS中ClientProtocal的()方法可以查找下一个数据块
A.nextBlock
B.getLocation
C.getBlockLocations
D.getBlock
6.对于不同顶点之间的信息交换,Pregel采用了()
A.远程数据读取
B.纯消息传递模型
C.共享消息
D.共享内存
7.UMP系通过()来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能
A.愚公系统
B.Procy服务器
C.Controller服务器
D.Agent服务器
8.批处理系统关注(),流处理系统关注()。
A.速度,吞吐率
B.延时,速度
C.延时,吞吐率
D.吞吐率,延时
9.()是一个通用文件系统的抽象基类,可以被分布式文件系统继承
A.HDFSSystem
B.GFSSystem
C.FileSystem
D.DistributedFileSystem
10.UMP系通过()来实现实现在不停机的情况下动态扩容、缩容和迁移
A.愚公系统
B.Procy服务器
C.Controller服务器
D.Agent服务器
11.列式数据库采用()存储模型
A.NSM
B.MySQL
C.Hbase
D.DSM
12.应用于涉及频繁读写、拥有简单数据模型的应用,内容缓存,比如会话的数据库是哪种()
A.键值数据库
B.文档数据库
C.图数据库
D.列族数据库
13.UMP系统借助于()来实现高效和可靠的协同工作
A.Zookeeper
B.RabbitMQ
C.Mnesia
D.LVS
14.UMP系统中面对分库分表用户如何进行资源调度()
A.随机分配MySQL实例
B.每个用户独占一个MySQL实例
C.可以共享同一个MySQL实例
D.会占用多个独立的MySQL实例
15.Storm中如果要让每一个Task都会收到所有的Tuple,应该采用哪种Stream Groupings()。
A.ShuffleGrouping
B.GlobalGrouping
C.FiedlsGrouping
D.AllGrouping
16.关于Hadoop集群网络拓扑,以下说法错误的是()。
A.普通的Hadoop集群结构由一个两阶网络构成
B.在相同的机架中的节点间的带宽的总和,要等于不同机架间的节点间的带宽总和
C.一般来说机架内部网络环境比机架间网络环境好
D.Hadoop集群中每个机架有30-40个服务器,配置一个1GB的交换机,并向上传输到一个核心交换机或者路由器
17.Gephi是哪种可视化工具()
A.时间线工具
B.地图工具
C.分析工具
D.信息图表
18.MapReduce设计的一个理念就是(),因为移动数据需要大量的网络传输开销。
A.计算向网络靠拢
B.计算向数据靠拢
C.计算与数据并行
D.数据向计算靠拢
19.Storm中如果要让所有的Tuple都发送到同一个Task中,应该采用哪种Stream Groupings()。
A.ShuffleGrouping
B.GlobalGrouping
C.FiedlsGrouping
D.AllGrouping
20.以下哪个是HDFS的局限性()。
A.数据集
B.延迟
C.吞吐率
D.兼容性
21.HBase的客户端并不依赖Master,而是通过()来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小
A.Zookeeper
B.Region
C.Master
D.Chubby
22.优点是性能好(高并发),灵活性高,复杂性低,数据结构灵活 提供嵌入式文档功能的数据库是()
A.键值数据库
B.文档数据库
C.图数据库
D.列族数据库
23.MapReduce中()会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker,同时接收JobTracker 发送过来的命令并执行相应的操作。
A.Task Tracker
B.Task
C.Job Tracker
D.Client
24.Storm中如果要随机分发Stream中的Tuple,保证每个Bolt的Task接收Tuple数量大致一致,应该采用哪种Stream Groupings()。
A.ShuffleGrouping
B.GlobalGrouping
C.FiedlsGrouping
D.AllGrouping
25.Hbase中主服务器Master主要负责表和Region的管理工作
A.客户端
B.Slaver
C.Region
D.Master
26.以下哪个是通过JDBS和关系数据库进行交互的()。
A.Sqoop
B.Oozie
C.Hive
D.Ambari
27.UMP系通过()来实现实现管理每台物理机上的MySQL实例
A.愚公系统
B.Procy服务器
C.Controller服务器
D.Agent服务器
28.()可解决HDFS中名称节点运行期间EditLog不断变大的问题
A.SecondaryNameNode
B.NameNode
C.DataNode
D.Block
29.Hbase中Zookeeper可以帮助选举出一个()作为集群的总管
A.客户端
B.Slaver
C.Region
D.Master
30.Pregel计算模型以()作为输入
A.矢量图
B.树
C.有向图
D.无向图
南开20春学期(1709、1803、1809、1903、1909、2003)《大数据开发技术(一)》在线作业[答案]多选题答案
二、多选题 (共 10 道试题,共 20 分)
31.以下哪个不是云数据库的特点
A.高可用性
B.高可扩展性
C.本地存储
D.支持资源有效分发
32.以下哪些属于典型的大数据应用()。
A.《黑镜子》制作
B.谷歌统计
C.谷歌流感趋势
D.谷歌搜索
E.《纸牌屋》制作
33.MapReduce可以解决哪些计算问题()。
A.聚合运算
B.矩阵乘法
C.关系投影运算
D.关系代数运算
34.流计算系统的需求有()。
A.高性能
B.高带宽
C.廉价
D.实时性
E.分布式
35.以下属于Hadoop的安装方式的有()。
A.并行模式
B.多机模式
C.单机模式
D.分布式模式
E.伪分布式模式
36.已得到广泛应用的分布式文件系统主要包括()。
A.MapReduce
B.Hbase
C.HDFS
D.GFS
37.Hbase中Zookeeper提供了()
A.配置维护
B.组服务
C.域名服务
D.分布式同步
38.关系数据库与NoSQL数据库相比适用于哪些领域()
A.银行
B.电信
C.传统企业的数据分析
D.互联网企业大数据处理
39.NoSQL数据库与关系数据库相比有哪些优势()
A.支持事务ACID四性
B.可以支持超大规模数据存储
C.具有强大的横向扩展能力
D.以完善的关系代数理论作为基础
40.流计算处理流程三个主要阶段是()。
A.实时采集
B.实时计算
C.实时查询
D.实时存储
三、判断题 (共 10 道试题,共 20 分)
41.HDFS集群中的数据节点一般是一个节点运行多个数据节点进程,负责处理文件系统客户端的读/写请求。
42.HDFS使用的是传统的分级文件体系,因此,用户可以像使用普通文件系统一样,创建、删除目录和文件,在目录间转移文件,重命名文件等
43.云数据库不可以满足企业动态变化的数据存储需求
44.HBase中包含了丰富的操作,其中会涉及复杂的多表连接。
45.MapReduce中TaskTracker使用“slot”等量划分本节点上的资源量。
46.云数据库不可以满足大企业的海量数据存储需求
47.HBase中执行更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧有的版本仍然保留
48.HDFS中的NameNode的EditLog用于维护文件系统树以及文件树中所有的文件和文件夹的元数据
49.Hadoop可以在单节点上以伪分布式的方式运行,Hadoop进程以分离的Java进程来运行,节点既作为NameNode也作为DataNode,同时,读取的是HDFS中的文件。
50.Hbase中表在垂直方向由一个或者多个列族组成,一个列族中可以包含任意多个列,同一个列族里面的数据存储在一起
南开20春学期(1709、1803、1809、1903、1909、2003)《大数据开发技术(一)》在线作业[答案]历年参考题目如下: