来源:奥鹏远程教育 日期: 作者:奥鹏作业辅导
南开18秋学期(1803)《大数据导论》在线作业[答案]答案
18秋学期(1803)《大数据导论》在线作业-0001试卷总分:100 得分:0
一、 单选题 (共 15 道试题,共 30 分)
1.大数据的特点不包含
A.数据体量大
B.价值密度高
C.处理速度快
D.数据不统一
2.GFS中的文件切分成()的块进行存储
A.32MB
B.64MB
C.128MB
D.1G
3.以下不是数据仓库基本特征的是()
A.数据仓库是面向主题的
B.数据仓库是面向事务的
C.数据仓库的数据是相对稳定的
D.数据仓库的数据是反映历史变化的
4.大数据的最显著特征是() 。
A.数据规模大
B.数据类型多样
C.数据处理速度快
D.数据价值密度高
5.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
6.购物篮问题是##的典型案例
A.数据变换
B.关联规则挖掘
C.数据分类
7.下面哪一项不是中国发展大数据产业的基础()。
A.信息化积累了丰富的数据资源
B.大数据技术创新取得明显突破
C.大数据应用推动势头良好
D.大数据产业支撑薄弱
8.下列哪个工具常用来开发移动友好地交互地图()
A.Leaflet
B.Visual.ly
C.BPizza Pie Charts
D.Gephi
9.基础设施即服务的英文简称是
A.IaaS
B.PaaS
C.SaaS
10.IaaS是()的简称
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
11.数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
12.医疗健康数据的基本情况不包括以下哪项?
A.诊疗数据
B.个人健康管理数据
C.公共安全数据
D.健康档案数据
13.下列哪个R语言扩展包可以创建带有点和边的网络图()
A.ggplot2
B.network
C.ggmaps
D.animation
14.用于描述数据分散情况的是()
A.分布图
B.箱式图
C.饼图
D.折线图
15.PaaS是()的简称
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
二、 多选题 (共 15 道试题,共 30 分)
1.下列正确的是()
A.D3是数据驱动文件的缩写,是最流行的可视化库之一,它被很多其他的表格插件所使用
B.D3也可以通过一些自定义模块来根据需求增添需要的(非DOM)特性,并在WebWorker上运行
C.D3采用的是Selectors API的第一级标准
D.基础R已经包含支撑包括协同图(Coplot)、拼接图(Mosaic Plot)和双标图等多类图形的功能。
2.可使用##,##,##进行光滑。
A.最大值
B.箱中位数
C.箱边界
D.箱均值
3.交通数据处理包括以下几个步骤()
A.数据清洗
B.数据映射
C.数据组织
D.数据聚类
4.可视化工具包括()
A.Excel
B.Google Chart
C.Gephi
D.ppt
5.大数据带来的挑战有哪些( )。
A.会导致数据盲点
B.危及个人隐私
C.造成群体歧视
D.产生庞大能耗
6.下列属于传统统计学展示方法的是()
A.柱状图
B.饼状图
C.曲线图
D.网络图
7.一个HDFS集群由一个##和##构成。此外,还有与这两个角色之间作为沟通桥梁的客户端(Client)。
A.一个名字节点
B.若干个名字节点
C.一个数据节点
D.若干个数据节点
8.大数据存储的特点与挑战有()
A.容量问题
B.延迟问题
C.安全问题
D.成本问题
9.KNIME(Konstanz Information Miner)是一个对用户友好的、智能、开源的平台。该平台包括了##、##、##、##。
A.数据集成
B.数据处理
C.数据分析
D.数据挖掘
10.大数据的技术支撑有()
A.计算速度加快
B.存储成本下降
C.机器智能化
D.数据量增加
11.对于数值属性,我们使用()来评估一个属性的值如何随另一个属性变化。
A.欧式距离
B.相关系数
C.协方差
12.最常用的方式是企业自己搜集自己生产系统所产生的数据,除生产系统的数据外,企业的信息系统还充斥着大量的()等。
A.用户行为数据
B.日志式的活动数据
C.事件信息
13.去除噪声使得数据光滑的技术主要有:
A.分箱
B.回归
C.离群点分析
14.大数据智能感知层:主要包括()及软硬件资源接入系统
A.数据传感体系
B.网络通信体系
C.传感适配体系
D.智能识别体系
15.互连网上出现的海量信息可以划分为三种,分别为( )
A.结构化信息
B.非结构化信息
C.半结构化信息
D.特殊化信息
三、 判断题 (共 20 道试题,共 40 分)
1.基于QQ用户位置变化轨迹,建立模型测算迁徙规模,分析人口迁徙方向及其影响因素。
A.对
B.错
2.Spark是基于内存的大数据并行计算框架
A.对
B.错
3.基于存储网络虚拟化是在存储区域网中增加虚拟化引擎实现存储资源的集中管理,其具体实施一般是通过具有虚拟化支持能力的路由器或交换机实现的。
A.对
B.错
4.分类是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。 组内相似度高,组间差异性大。
A.对
B.错
5.在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。
A.对
B.错
6.数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约
A.对
B.错
7.Python是一种面向对象的解释型计算机程序设计语言
A.对
B.错
8.越来越多的企业通过架设海量数据采集系统,多用于系统日志采集,这些工具均采用分布式架构,能满足每秒数百兆的日志数据采集和传输需求。
A.对
B.错
9.交通数据涉及到交通车辆或者道路两旁安装的传感器生成和手机的数据集。
A.对
B.错
10.FP算法比Apriori算法慢
A.对
B.错
11.累加器只有驱动程序才能读取
A.对
B.错
12.美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”
A.对
B.错
13.监测和分析车辆轨迹数据可用于推断车辆移动规律,并支持专家对于可靠信息的交通分析。了解交通情况和道路网络中的车辆状态的有效方法就是监测和分析出租车上配备的GPS生成的轨迹数据。
A.对
B.错
14.Human mobility 即“人类移动性”,表示人类个体或群体在地理空间中具有特定意义的“移动(Movement)”所隐含的社会系统要素时空分布与演化规律。
A.对
B.错
15.用一个函数拟合数据来光滑数据称为回归。
A.对
B.错
16.NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的模式。
A.对
B.错
17.图表列表视图显示了传播图的拓扑关系
A.对
B.错
18.数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
A.对
B.错
19.移动手机数据相对较低的时空分辨率使其并不适于估测道路上的行车时间,但是他们高渗透率和记录期长的特点使其成为分析OD行为的最佳选择。
A.对
B.错
20.数据挖掘主要是为了发现隐藏在数据中的有用信息和规律
A.对
B.错
南开18秋学期(1803)《大数据导论》在线作业[答案]历年真题如下: