南开《大数据开发技术(二)》20春期末考核[答案]答案
《大数据开发技术(二)》20春期末考核-00001
试卷总分:100 得分:70
一、单选题 (共 15 道试题,共 30 分)
1.GraphX中()方法可以查询顶点信息
A.numVertices
B.numEdges
C.vertices
D.edges
2.MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法()训练回归树
A.trainClassifier
B.trainRegressor
C.LogisticRegressionModel
D.LabeledPoint
3.以下哪个函数可以对RDD进行去重()
A.sortBy
B.filter
C.distinct
D.intersection
4.图是一种数据元素间为()关系的数据结构
A.多对多
B.一对一
C.一对多
D.多对一
5.GraphX中()方法可以查询度数
A.degrees
B.degree
C.vertices
D.edges
6.Scala中()方法返回一个列表,包含除了第一个元素之外的其他元素
A.head
B.init
C.tail
D.last
7.GraphX中graph.triplets可以得到()
A.顶点视图
B.边视图
C.顶点与边的三元组整体视图
D.有向图
8.spark-submit配置项中()表示启动的executor数量
A.--num-executors NUM
B.--executor-memory MEM
C.--total-executor-cores NUM
D.--executor-coures NUM
9.()是AMPLab发布的一个R开发包,使得R摆脱单机运行的命运,可以作为Spark的Job运行在集群上
A.SparkR
B.BlinkDB
C.GraphX
D.Mllib
10.Spark GraphX中类Graph的collectNeighborIds(edgeDirection: EdgeDirection)方法可以()
A.收集邻居顶点的顶点Id和顶点属性
B.收集邻居顶点的顶点Id
C.向指定顶点发送信息并聚合信息
D.将顶点信息更新到图中
11.Mllib中线性会馆算法中的参数reParam表示()
A.要运行的迭代次数
B.梯度下降的步长
C.是否给数据加干扰特征或者偏差特征
D.Lasso 和ridge 的正规化参数
12.Scala列表方法中通过给定的方法将所有元素重新计算的方法是()
A.filter
B.foreach
C.map
D.mkString
13.Scala函数组合器可以把一个二维的列表展开成一个一维的列表的方法是()
A.filter
B.flatten
C.grouby
D.flatmap
14.GraphX中()方法可以释放顶点缓存
A.cache
B.presist
C.unpersistVertices
D.edges.unpersist
15.Spark GraphX中类Graph的aggregateMessages方法可以()
A.收集邻居顶点的顶点Id和顶点属性
B.收集邻居顶点的顶点Id
C.向指定顶点发送信息并聚合信息
D.将顶点信息更新到图中
南开《大数据开发技术(二)》20春期末考核[答案]多选题
二、多选题 (共 10 道试题,共 20 分)
16.MLBase包括()
A.Mllib
B.MLI
C.SparkR
D.GraphX
17.Spark创建DataFrame对象方式有()
A.结构化数据文件
B.外部数据库
C.RDD
D.Hive中的表
18.TF-IDF中IDF指的是()
A.词频
B.词在文档中出现的次数
C.逆文档概率
D.词在文档集中出现的概率
E.词在文档集中出现的概率
19.Spark中DataFrame的()方法是查询指定字段的数据信息
A.select
B.selectExpr
C.col
D.apply
20.以下算法中属于监督学习算法的是()
A.KNN算法
B.逻辑回归
C.随机森林
D.Kmeans
21.以下哪个方法可以从集合中创建RDD()
A.parallelize
B.makeRDD
C.textFile
D.loadFile
22.Scala函数支持()
A.递归函数
B.高阶函数
C.柯里化
D.匿名函数
23.GraphX中Edge边对象存有()字段
A.srcId
B.dstId
C.attr
D.val
24.Spark中的RDD的说法正确的是()
A.弹性分布式数据集
B.是Spark中最基本的数据抽象
C.代表一个可变的集合
D.代表的集合里面的元素可并行计算
25.Spark支持使用()语言编写应用
A.Scala
B.Python
C.Java
D.R
三、判断题 (共 10 道试题,共 20 分)
26.Scala中高阶函数可以使用函数作为参数,也可以使用函数作为输出结果。
27.RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。
28.RDD的filter过滤会将返回值为true的过滤掉
29.RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除
30.图(Graph)是一种复杂的非线性结构
31.Spark中DataFrame 的查询操作也是一个懒操作, 仅仅生成一个查询计划, 只有触发Action 操作才会进行计算并返回查询结果。
32.RDD的map操作不会改变RDD的分区数目
33.Scala 集合分为可变的和不可变的集合
34.Spark RDD 是惰性求值的, 如果需要对一个RDD 多次使用,那么调用行动操作时每次都需要重复计算RDD 以及它的依赖。
35.Scala 列表与数组非常相似,列表的所有元素可具有不同的类型。
四、主观填空题 (共 5 道试题,共 10 分)
36.Scala函数组合器可以把一个二维的列表展开成一个一维的列表的方法是##
37.Mllib中线性会馆算法中的参数reParam默认值是##
38.假设集合A 有5 个元素,集合B 有10 个元素,使用RDDcartesian函数会返回##个元素的组合
39.Scala中定义函数的关键字是##
40.Spark SQL 可以通过##方法将HDFS 上的格式化文件转换为DataFrame
五、问答题 (共 1 道试题,共 10 分)
41.请阐述Spark对数据进行持久化的特点
六、名词解释 (共 2 道试题,共 10 分)
42.SparkR
43.DStream
南开《大数据开发技术(二)》20春期末考核[答案]历年真题如下: