南开20秋学期(1709、1803、1809、1903、1909、2003、2009 )《大数据开发技术(二)》在线作业[答案]满分答案
20秋学期(1709、1803、1809、1903、1909、2003、2009 )《大数据开发技术(二)》在线作业
试卷总分:100 得分:100
一、单选题 (共 25 道试题,共 50 分)
1.()可以解决图计算问题
A.Spark Core
B.BlinkDB
C.GraphX
D.Mllib
2.图结构中如果无重复的边或者顶点到自身的边,那么称之为()
A.完全图
B.有向完全图
C.无向图
D.简单图
3.()是Spark的核心,提供底层框架及核心支持
A.Spark Core
B.Spark SQL
C.Spark Streaming
D.Mllib
4.递归函数意味着函数可以调用它()
A.其他函数
B.主函数
C.子函数
D.自身
5.请问RDD的()操作是根据键对两个RDD进行内连接
A.join
B.zip
C.combineByKey
D.collect
6.Dstream窗口操作中()方法基于滑动窗口对源DStream中的元素进行聚合操作,得到一个新的Dstream
A.window
B.countByWindow
C.reduceByWindow
D.reduceByKeyAndWindow
7.Spark Streming中()函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream 时,返回类型为(K,(V,W))键值对的一个新 DStream。
A.union
B.reduce
C.join
D.cogroup
8.Spark Streming中()函数可以对源DStream的每个元素通过函数func返回一个新的DStream
A.map
B.flatMap
C.filter
D.union
9.请问RDD的()操作用于将相同键的数据聚合
A.join
B.zip
C.combineByKey
D.collect
10.RDD的()操作通常用来划分单词
A.filter
B.union
C.flatmap
D.mapPartitions
11.Scala通过()来定义变量
A.val
B.val
C.define
D.def
12.下列Scala代码应输出(): var a=0; var b=0 var sum=0; for(a<-1 until 3; b<-1 until 3) { sum+=a+b; } println(sum);
A.36
B.35
C.11
D.12
13.MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法()训练回归树
A.trainClassifier
B.trainRegressor
C.LogisticRegressionModel
D.LabeledPoint
14.以下哪个不是Scala的数据类型()
A.AnyRef
B.Anything
C.NULL
D.Nothing
15.Spark GraphX中类Graph的reverse方法可以()
A.反转图中所有边的方向
B.按照设定条件取出子图
C.取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性
D.合并边相同的属性
16.图结构中如果任意两个顶点之间都存在边,那么称之为()
A.完全图
B.有向完全图
C.无向图
D.简单图
17.Graph类中如果根据边数据创建图,数据需要转换成RDD[Edge[ED]类型,应该用()方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)
18.spark-submit配置项中()表示启动的executor数量
A.--num-executors NUM
B.--executor-memory MEM
C.--total-executor-cores NUM
D.--executor-coures NUM
19.以下算法中属于无监督学习算法的是()
A.KNN算法
B.逻辑回归
C.随机森林
D.Kmeans
20.Scala函数组合器可以对集合中的元素进行分组操作,结果得到的是一个Map的方法是()
A.filter
B.flatten
C.grouby
D.flatmap
21.以下哪个函数可以求两个RDD差集 ()
A.union
B.substract
C.intersection
D.cartesian
22.Scala列表方法中通过给定的方法将所有元素重新计算的方法是()
A.filter
B.foreach
C.map
D.mkString
23.Graph类中如果要根据边数据创建图,边数据需要加载为二元组,可以选择是否对边分区,应该用()方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)
24.以下哪个函数可以求两个RDD交集 ()
A.union
B.substract
C.intersection
D.cartesian
25.()是Spark的数据挖掘算法库
A.Spark Core
B.BlinkDB
C.GraphX
D.Mllib
南开20秋学期(1709、1803、1809、1903、1909、2003、2009 )《大数据开发技术(二)》在线作业[答案]多选题答案
二、多选题 (共 10 道试题,共 20 分)
26.Scala中使用()方法来查看两个集合的交集元素
A.Set.concat
B.Set.&
C.Set.&&
D.Set.intersect
27.以下哪个方法可以从集合中创建RDD()
A.parallelize
B.makeRDD
C.textFile
D.loadFile
28.以下是机器学习的常用算法的是()
A.回归算法
B.聚类算法
C.降维算法
D.分类算法
29.Mllib实现了一些常见的机器学习算法和应用程序,包括()
A.分类
B.聚类
C.降维
D.回归
30.Spark是一个()计算框架
A.快速
B.分布式
C.可扩展
D.容错
31.MapReudce不适合()任务
A.大数据计算
B.迭代
C.交互式
D.离线分析
32.Spark创建DataFrame对象方式有()
A.结构化数据文件
B.外部数据库
C.RDD
D.Hive中的表
33.Spark的RDD持久化操作有()方式
A.cache
B.presist
C.storage
D.long
34.以下哪个是Scala的数据类型()
A.Any
B.NULL
C.Nothing
D.AnyRef
35.Spark中DataFrame的()方法是查询指定字段的数据信息
A.select
B.selectExpr
C.col
D.apply
三、判断题 (共 15 道试题,共 30 分)
36.RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除
37.RDD的map操作不会改变RDD的分区数目
38.RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。
39.Scala是一种纯面向对象的语言,每个值都是对象。
40.MLlib中Normalizer是一个转换器,它可以将多行向量输入转化为统一的形式。
41.PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作
42.RDD的filter过滤会将返回值为true的过滤掉
43.Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包括面向对象编程的特性。
44.Scala列表中last返回一个列表,包含除了第一个元素之外的其他元素
45.Scala函数组合器可以通过一个函数重新计算列表中所有元素,没有返回值
46.Scala在子类中重写超类的抽象方法时,需要使用override关键字
47.RDD是一个可读写的数据结构
48.Scala中创建一个方法时经常用void表示该方法无返回值
49.RDD中的collect 函数是一个行动操作,把RDD 所有元素转换成数组并返回到Driver 端,适用于大数据处理后的返回。
50.Spark Streming中Dstream是一种抽象的离散流
南开20秋学期(1709、1803、1809、1903、1909、2003、2009 )《大数据开发技术(二)》在线作业[答案]历年参考题目如下: