南开20秋学期(1709、1803、1809、1903、1909、2003、2009 )《数据科学导论》在线作业[答案]满分答案
20秋学期(1709、1803、1809、1903、1909、2003、2009 )《数据科学导论》在线作业
试卷总分:100 得分:92
一、单选题 (共 20 道试题,共 40 分)
1.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
2.置信度(confidence)是衡量兴趣度度量( )的指标。
A.简洁性
B.确定性
C.实用性
D.新颖性
3.实体识别属于以下哪个过程()
A.数据清洗
B.数据集成
C.数据规约
D.数据变换
4.在一元线性回归模型中,残差项服从()分布。
A.泊松
B.正态
C.线性
D.非线性
5.手肘法的核心指标是()。
A.SES
B.SSE
C.RMSE
D.MSE
6.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
7.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A.关联规则发现
B.聚类
C.分类
D.自然语言处理
8.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
9.聚类是一种()。
A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
10.以下哪些不是缺失值的影响()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
11.多层感知机是由()层神经元组成。
A.二
B.三
C.大于等于二层
D.大于等于三层
12.以下哪一项不属于数据变换()
A.简单函数变换
B.规范化
C.属性合并
D.连续属性离散化
13.以下哪一项不是特征工程的子问题()
A.特征创建
B.特征提取
C.特征选择
D.特征识别
14.哪一项不属于规范化的方法()
A.最小-最大规范化
B.零-均值规范化
C.小数定标规范化
D.中位数规范化
15.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A.减小,减小
B.减小,增大
C.增大,减小
D.增大,增大
16.在回归分析中,自变量为(),因变量为()。
A.离散型变量,离散型变量
B.连续型变量,离散型变量
C.离散型变量,连续型变量
D.连续型变量,连续型变量
17.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性
18.以下属于关联分析的是( )
A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模
19.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
20.我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。
A.自上而下
B.自下而上
C.自左而右
D.自右而左
南开20秋学期(1709、1803、1809、1903、1909、2003、2009 )《数据科学导论》在线作业[答案]多选题答案
二、多选题 (共 10 道试题,共 20 分)
21.多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
22.下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
23.距离度量中的距离可以是()
A.欧式距离
B.曼哈顿距离
C.Lp距离
D.Minkowski距离
24.Apriori算法的计算复杂度受()影响。
A.支持度阈值
B.项数
C.事务数
D.事务平均宽度
25.下列选项是BFR的对象是()
A.废弃集
B.临时集
C.压缩集
D.留存集
26.系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
27.一元回归参数估计的参数求解方法有()。
A.最大似然法
B.距估计法
C.最小二乘法
D.欧式距离法
28.k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
29.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
30.聚类的主要方法有()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
三、判断题 (共 20 道试题,共 40 分)
31.决策树分类时将该结点的实例强行分到条件概率大的那一类去
32.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。
33.阶跃函数具有不光滑、不连续的特点。
34.sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。