南开22春学期《网络爬虫与信息提取》在线作业[正确正确答案]单选题答案
22春学期(高起本1709-1803、全层次1809-2103)《网络爬虫与信息提取》在线作业-00001
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为(),Value就是一个集合。
正确选项:--------
A.字典
B.集合的名字
C.集合
D.文档
2.Redis若要进入交互环境,需要打开终端输入()
正确选项:--------
A.redis-cli
B.redis
C.redis-cmd
正确选项:--------
D.redis-start
正确选项:--------
3.xpath中extract方法返回值类型是()
A.列表
B.元组
C.字典
D.集合
正确选项:--------
正确选项:--------
4.Scrapy自带的待爬队列是()
A.deque
正确选项:--------
B.queue
C.list
D.lqueue
5.请问按哪个键可以打开Chrome自带的开发者工具()
A.F10
B.F1
C.F11
D.F12
正确选项:--------
6.服务器端记录信息确定用户身份的数据是
A.session
B.cookies
C.moonpies
D.localstorage
7.以下关于Charles的说法正确的是( )
A.Charles是一个跨平台的HTTP抓包工具,可以截取HTTP或者HTTPS请求的数据包
B.Charles有Windows 32/64版和Linux 64 版,但是目前还没有对Mac OS进行有效的支持。
正确选项:--------
C.Charles上面滚动的数据就是目前计算机发起的数据包。单击工具栏上面的黄色笤帚图标,可以清停止抓包。
D.在Charles启动时,系统自带浏览器的部分HTTP流量不会经过Charles。
正确选项:--------
8.MongoDB中数据存储的形式类似于()
正确选项:--------
A.列表
B.元组
C.字典
D.集合
9.一般来说在页面传输登录信息都用HTTP()请求类型
A.GET
B.POST
C.PUT
D.SEND
10.使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。
正确选项:--------
A.Redis
B.RedisSpider
正确选项:--------
C.Spider
D.MongoDB
正确选项:--------
11.当需要把Python里面的数据发送给网页时,需要先转换成()字符串
A.Python
B.Json
C.正则表达式
D.Ajax
12.lxml库中etree模块的()方法把Selector对象转换为bytes型的源代码数据
A.etree.tostring
B.etree.convertBytes
C.etree.toBytes
D.etree.convertstring
13.Python中以下哪个容器里的元素不能重复()
A.列表
B.元组
C.字典
D.集合
14.通常使用()工具来模拟浏览器进行爬虫请求
A.Selenium
B.Chrome
C.ChromeDriver
正确选项:--------
D.WebDriver
正确选项:--------
15.下面Python代码输出为(): def default_para_trap(para=[], value=0): para.append(value) return para print('第一步:{}'.format(default_para_trap(value=100))) print('第二步:{}'.format(default_para_trap(value=50)))
正确选项:--------
A.第一步:[100] 第二步:[100,50]
B.第一步:[100] 第二步:[50]
C.第一步:[100] 第二步:[]
D.第一步:[100] 第二步:[100]
正确选项:--------
16.Python中若定义object=[1, 2, 3, 4, 5],则print(object[:3])输出()
A.12
B.123
C.23
D.234
正确选项:--------
17.使用Xpath构造属性值包含相同字符串的路径采用()方法
A.contain
B.contains
C.include
D.includes
18.使用UI Automatorr长按点击的操作是得到相应控件后使用命令()
A.longclick
B.long_click
C.clicklong
D.click_long
正确选项:--------
19.HTTP常用状态码表明服务器上没有请求的资源的是()
A.500
B.503
C.403
D.404
20.Scrapy_redis是Scrapy的“()”,它已经封装了使用Scrapy操作Redis的各个方法
A.组件
B.模块
C.控件
D.单元
南开22春学期《网络爬虫与信息提取》在线作业[正确正确答案]多选题答案
二、多选题 (共 10 道试题,共 20 分)
21.Python中有哪些实现多线程方法()
A.multiprocess.dummy
B.threading.Thread
C.process
D.PyMongoDB
正确选项:--------
22.最常见的HTTP请求类型有()
A.GET
B.POST
C.SEND
D.RECEIVE
正确选项:--------
23.Redis中的值可以支持()
正确选项:--------
A.列表
B.哈希
C.集合
D.有序集合
正确选项:--------
24.常用的会话跟踪技术是
A.session
B.cookies
C.moonpies
D.localstorage
25.以下哪种方法是MongoDB的查找方法()
正确选项:--------
A.find
B.find_one
正确选项:--------
C.finds
D.find_all
26.针对解析源代码的BeautifulSoup对象,构造时BeautifulSoup(网页源代码, '解析器')中的解析器可以为()
A.html
B.html.parser
C.lxml
D.xml
27.Python中一个函数可以有()个return语句
A.0
B.1
C.多个
D.2
28.Python中的容器有()
A.列表
B.元组
C.字典
D.集合
29.Python中一个函数没有返回值则可以写()
A.没有return
B.return
C.return None
D.return NULL
30.下列关于在IOS上配置charles的说法正确的是()
A.不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。
B.手机和电脑需要在同一个局域网下。
C.HTTP代理可以使用“自动”选项。
正确选项:--------
D.安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动
三、判断题 (共 20 道试题,共 40 分)
31.Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open('文件路径', '文件操作方式', encoding='utf-8') as f
32.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
33.Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。
正确选项:--------
34.插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1
正确选项:--------
35.Python正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串。
36.使用Scrapyd,可以实现一键部署Scrapy爬虫,访问一个网址就启动/停止爬虫
正确选项:--------
37.Python中元组生成以后还可以往里面继续添加数据,也可以从里面删除数据;
38.如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
39.HTTP状态码302与307完全同义。
40.如果元组里面只有整数、浮点数、字符串、一个列表,就既不能添加数据,也不能删除数据,还不能修改里面数据的值。
41.HTTP状态码302表示资源永久重定向。
42.使用异步加载技术的网站,被加载的内容可以在源代码中找到
43.Python中条件语句在使用and连接的多个表达式中,只要有一个表达式不为真,那么后面的表达式就不会执行。
正确选项:--------
44.当运行爬虫代码后,出现"Forbidden by robots.txt"提示后,说明当前时间段被爬取的网站无法访问。
正确选项:--------
45.在请求头中设置User-Agent即可正常请求网站
46.爬虫中间件的激活需要另外写一个文件来进行
47.在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
正确选项:--------
48.当使用Charles监控iOS设备或者Android设备的数据包以后,打开微信小程序,小程序的数据包不能自动被Charles抓住,需要另作处理。
正确选项:--------