来源:奥鹏远程教育 日期: 作者:奥鹏作业辅导
南开19春学期(1709、1803、1809、1903)《大数据导论》在线作业[答案]答案
19春学期(1709、1803、1809、1903)《大数据导论》在线作业-0001试卷总分:100 得分:0
一、 单选题 (共 15 道试题,共 30 分)
1.SAN是一种()
A.存储设备
B.专为数据存储而设计构建的网络
C.光纤交换机
D.HBA
2.下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画()
A.ggplot2
B.network
C.ggmaps
D.animation
3.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
4.基础设施即服务的英文简称是
A.IaaS
B.PaaS
C.SaaS
5.以下不是数据仓库基本特征的是()
A.数据仓库是面向主题的
B.数据仓库是面向事务的
C.数据仓库的数据是相对稳定的
D.数据仓库的数据是反映历史变化的
6.数据仓库是随着时间变化的,下列不正确的是()
A.数据仓库随时间变化不断增加新内容
B.捕捉到的新数据会覆盖原来的快照
C.数据仓库随事件变化不断删去旧的数据内容
D.数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合
7.医疗健康数据的基本情况不包括以下哪项?
A.诊疗数据
B.个人健康管理数据
C.公共安全数据
D.健康档案数据
8.下列不属于Google云计算平台技术架构的是()
A.并行数据处理MapReduce
B.分布式锁Chubby
C.结构化数据表BigTable
D.弹性云计算EC2
9.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
10.数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
11.()是Microsoft Office的核心组件
A.SQL
B.WORD
C.PPT
D.EXCEL
12.用于描述数据分散情况的是()
A.分布图
B.箱式图
C.饼图
D.折线图
13.哪个选项不属于大数据4V特点?
A.Volume
B.Valid
C.Variety
D.Value
14.MapReduce中的Map和Reduce函数使用()进行输入输出
A.key/value对
B.随机数值
C.其他计算结果
15.下面哪一项不是中国发展大数据产业的基础()。
A.信息化积累了丰富的数据资源
B.大数据技术创新取得明显突破
C.大数据应用推动势头良好
D.大数据产业支撑薄弱
二、 多选题 (共 15 道试题,共 30 分)
1.去除噪声使得数据光滑的技术主要有:
A.分箱
B.回归
C.离群点分析
2.基于大数据的临床决策支持系统的架构包括
A.支撑层
B.大数据分析层
C.网络层
D.应用层
3.数据清洗(Data Cleaning)的方法有()
A.填充空缺值
B.清除数据中的噪声
C.识别或删除离群点并解决不一致性
4.KNIME(Konstanz Information Miner)是一个对用户友好的、智能、开源的平台。该平台包括了##、##、##、##。
A.数据集成
B.数据处理
C.数据分析
D.数据挖掘
5.交通数据处理包括以下几个步骤()
A.数据清洗
B.数据映射
C.数据组织
D.数据聚类
6.大数据存储的特点与挑战有()
A.容量问题
B.延迟问题
C.安全问题
D.成本问题
7.传感器工作模式类别包括()
A.基于位置
B.基于活动
C.基于设备
8.以下可以用于数据可视化的是()。
A.R语言
B.Excel
C.RapidMiner
D.Weka
9.数据分析的类型根据数据分析深度可以分为()
A.描述性分析
B.预测性分析s
C.规则性分析
10.大数据在电信中的应用有
A.基于用户、业务及流量分级的多维管控机制
B.精准的客户分析及营销
C.利用位置和轨迹信息服务社会
11.百度大数据引擎主要包含三大组件()
A.开放云
B.数据工厂
C.百度大脑。
12.常见的分类方法有
A.决策树
B.贝叶斯网络
C.遗传算法
D.FP算法
13.可视化工具包括()
A.Excel
B.Google Chart
C.Gephi
D.ppt
14.数据变换的常用方法有##,##,##,##
A.中心化变换
B.极差规格化变换
C.标准化变换
D.对数变换
15.借助于大数据提供的##和##,政府可为农业生产进行合理引导,依据需求进行生产,避免产能过剩造成不必要的资源和社会财富浪费。
A.消费能力
B.趋势报告
C.购物结果
三、 判断题 (共 20 道试题,共 40 分)
1.在现有大数据的存储中,结构化数据仅有20%,其余80%则在存在于物联网、电子商务、社交网络等 领域的半结构化数据和非结构化数据
A.对
B.错
2.大数据的速度快体现在数据产生速度快和要求分析处理速度快
A.对
B.错
3.数据可根据产生主体的不同分为两类:少量企业应用产生的数据和量个人用户产生的数据
A.对
B.错
4.数据变换(Data Transformation)就是把原始数据转化为适合于数据挖掘的数据形式
A.对
B.错
5.时空数据可视化与地理制图学相结合,重点对时间与空间维度,以及与之相关的信息对象属性建立可视化表征,对与时间和空间密切相关的模式及规律进行展示
A.对
B.错
6.在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。
A.对
B.错
7.基于大数据研究个体或群体行为,发现活动中蕴含的空间认知规律及空间行为和交互模式,建立以人为本的地理信息服务,进而支持个体或群体时空行为决策。
A.对
B.错
8.概念描述的主要方法是对目标数据进行概述性的总结,数据泛化
A.对
B.错
9.宁家骏委员指出,大数据要与“互联网+”医疗健康紧密结合起来,国家明确支持“互联网+”医疗、“互联网+”健康。
A.对
B.错
10.通过大数据的分析将会更精确地预测未来的天气,帮助农民做好自然灾害的预防工作,帮助政府实现农业的精细化管理和科学决策。
A.对
B.错
11.通过增加CPU或模块来增加存储容量,这样可以不需要停机。
A.对
B.错
12.NoSQL是泛指非关系型、分布式和不提供ACID的数据库,它不是单纯地反对关系型数据库,而是强调键值存储和文档数据库的优点。
A.对
B.错
13.《科学》(Science)杂志专刊——Dealing with data,通过社会调查的方式,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的“数据困境”。
A.对
B.错
14.聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。组内相似度高,组间差异性大。
A.对
B.错
15.交通数据的来源包括车辆GPS数据,人类移动的GPS位置信息或者单位站点记录,和监视设备的视频图像技术记录。
A.对
B.错
16.数据获取方式分为主动式获取和被动式获取
A.对
B.错
17.NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的模式。
A.对
B.错
18.美国《自然》(Nature)杂志专刊——The next google,第一次正式提出“大数据”概念。
A.对
B.错
19.分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光;
A.对
B.错
20.所有关系型数据中的数据全部为结构化数据。半结构化数据就是介于完全结构化数据和完全无结构化的数据之间的数据。
A.对
B.错
南开19春学期(1709、1803、1809、1903)《大数据导论》在线作业[答案]历年真题如下: