南开21秋学期《数据科学导论》在线作业[正确答案]单选题答案
21秋学期(1709、1803、1809、1903、1909、2003、2009、2103)《数据科学导论》在线作业
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。
A.计数属性
B.离散属性
C.非对称的二元属性#对称属性
2.BFR聚类是用于处理数据集()的k-means变体。
A.大
B.中
C.小
D.所有
正确选项:--------
3.多层感知机是由()层神经元组成。
A.二
B.三
C.大于等于二层
D.大于等于三层
正确选项:--------
4.以下属于关联分析的是( )
A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模
正确选项:--------
5.聚类是一种()。
A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
6.在回归分析中,自变量为(),因变量为()。
A.离散型变量,离散型变量
B.连续型变量,离散型变量
C.离散型变量,连续型变量
D.连续型变量,连续型变量
正确选项:--------
7.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
正确选项:--------
A.减小,减小
B.减小,增大
C.增大,减小
D.增大,增大
8.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A.最小化方差#最小化标准差
B.最小化残差平方和
C.最大化信息熵
9.聚类的最简单最基本方法是()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
10.K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
11.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
正确选项:--------
12.我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。
A.自上而下
B.自下而上
C.自左而右
D.自右而左
正确选项:--------
13.对于k近邻法,下列说法错误的是()。
A.不具有显式的学习过程
B.适用于多分类任务
C.k值越大,分类效果越好
D.通常采用多数表决的分类决策规则
正确选项:--------
14.单层感知机是由()层神经元组成。
A.一
B.二
C.三
D.四
15.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
A.K-means
B.Bayes Network
C.C4.5
D.Apriori
16.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。
A.1
B.2
C.3
D.4
正确选项:--------
17.以下哪一项不是特征工程的子问题()
A.特征创建
B.特征提取
C.特征选择
D.特征识别
正确选项:--------
18.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
19.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A.越小
B.越大
C.无关
D.不确定
正确选项:--------
20.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性
正确选项:--------
南开21秋学期《数据科学导论》在线作业[正确答案]多选题答案
二、多选题 (共 10 道试题,共 20 分)
21.对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
22.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
23.Apriori算法的计算复杂度受()影响。
A.支持度阈值
B.项数
C.事务数
D.事务平均宽度
正确选项:--------
24.k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
25.关联规则的评价度量主要有:()。
A.支持度
B.置信度
C.准确率
D.错误率
26.下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
正确选项:--------
27.一元回归参数估计的参数求解方法有()。
A.最大似然法
B.距估计法
C.最小二乘法
D.欧式距离法
28.数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
29.什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
30.系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
正确选项:--------
三、判断题 (共 20 道试题,共 40 分)
31.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
32.信息熵越大,数据信息的不确定性越小。
33.在数据预处理时,无论什么情况,都可以直接将异常值删除
34.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。
35.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
36.每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
37.具有双隐层的感知机足以用于解决任何复杂的分类问题。
38.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。
39.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
40.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。
41.阶跃函数具有不光滑、不连续的特点。
42.分拆方法是自底向上的方法。
43.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。
正确选项:--------
44.剪枝是决策树学习算法对付“过拟合”的主要手段
正确选项:--------
45.单层感知机对于线性不可分的数据,学习过程也可以收敛。