南开23春学期《网络爬虫与信息提取》在线作业[正确答案]单选题答案
随机答案:ABCD
23春学期(高起本:1709-2103、专升本/高起专:1909-2103)《网络爬虫与信息提取》在线作业-00003
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()
A.spiders文件夹
正确答案:C
正确答案:C
B.item.py
C.pipeline.py
D.settings.py
正确答案:A
正确选项:--------
2.参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。
正确答案:B
A.HEADER
正确答案:A
B.HEADERS
随机答案:ABCD
C.HEAD
D.BODY
正确答案:C
3.可以通过()绕过网站登录。
A.session
B.cookies
C.moonpies
D.localstorage
正确答案:D
4.下面代码一共执行循环多少次(): i=0 while i<10: i+=1
A.9
B.10
C.11#0
5.Python并导入uiautomator来操作设备的语句是from uiautomator import ()
A.Device
正确答案:D
B.Devices
正确答案:D
C.Jobs
D.Job
正确答案:A
6.Python中的()库用于发送网络请求
A.web
B.request
C.requests
D.javascript
正确答案:A
7.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A.列表
B.元组
C.字典
D.集合
随机答案:ABCD
随机答案:ABCD
随机答案:ABCD
正确答案:D
8.HTTP常用状态码表明服务器上没有请求的资源的是()
A.500
B.503
C.403
D.404
正确答案:C
9.通常使用()工具来模拟浏览器进行爬虫请求
A.Selenium
B.Chrome
C.ChromeDriver
正确答案:C
D.WebDriver
正确选项:--------
10.PyMongo中查询所有age > 29的记录是()
A.collection.find({'age': {'$gt': 29}})
随机答案:ABCD
B.collection.find({'age'>29})
正确答案:B
C.collection.find_all({'age': {'$gt': 29}})
正确答案:C
D.collection.find_all({'age'>29})
正确答案:C
11.使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()
A.content
B.text
C.title
D.body
正确答案:B
12.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为(),Value就是一个集合。
正确答案:D
A.字典
B.集合的名字
C.集合
D.文档
随机答案:ABCD
正确答案:D
13.使用UI Automator打开微信的操作是获取相应图标后使用命令()
A.touch
B.click
C.push
D.hover
正确选项:--------
14.Scrapy自带的待爬队列是()
A.deque
正确答案:B
B.queue
C.list
D.lqueue
正确选项:--------
15.启动MongoDB使用命令mongod --() usr/local/etc/mongod.conf
正确答案:D
A.config
B.install
C.start
D.begin
正确答案:D
16.在Scrapy的目录下,哪个文件负责定义需要爬取的数据?()
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
17.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为集合的名字,Value就是一个()。
正确答案:D
A.字典
B.集合的名字
C.集合
D.文档
18.Python中哪种容器一旦生成就不能修改
A.列表
B.元组
C.字典
D.集合
19.使用xpath方法的返回类型是()
A.列表
B.元组
C.字典
D.集合
20.python中可以用来将图片中的文字转换为文本的第三方类库是
A.lxml
B.requests
C.beautifulsoup
D.pytesseract
正确答案:D
正确答案:C
南开23春学期《网络爬虫与信息提取》在线作业[正确答案]多选题答案
二、多选题 (共 10 道试题,共 20 分)
21.requests中post请求方法的第二个参数可以为()
A.字典
B.列表
C.json数据
D.字符串
正确答案:D
22.Redis中的值可以支持()
正确答案:B
A.列表
B.哈希
C.集合
D.有序集合
正确选项:--------
23.HTTP常用状态码表明表明客户端是发生错误的原因所在的有()
A.403
B.404
C.500
D.503
正确选项:--------
24.下载器中间件的作用有哪些?
A.更换代理IP
B.更换Cookies
C.更换User-Agent
D.自动重试
正确答案:C
25.最常见的HTTP请求类型有()
A.GET
B.POST
C.SEND
D.RECEIVE
正确答案:C
26.Python中的容器有()
A.列表
B.元组
C.字典
D.集合
27.如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()
A.非法侵入计算机系统罪
B.非法获取计算机信息系统数据罪
C.非法获取计算机数据罪
D.非法获取系统罪
随机答案:ABCD
28.要使用tesseract来进行图像识别,需要安装两个第三方库
A.requests
B.beautifulsoup
C.Pillow
D.pytesseract
29.Python中有哪些实现多线程方法()
A.multiprocess.dummy
正确答案:B
B.threading.Thread
正确答案:D
C.process
D.PyMongoDB
随机答案:ABCD
30.在配置ios使用Charles的操作中,正确的有()
A.对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上。
B.选择“HTTP代理”下面的“手动”选项卡,在“服务器”处输入计算机的IP地址,在“端口”处输入8888
正确选项:--------
C.输入完成代理以后按下苹果设备的Home键,设置就会自动保存。
D.安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任
正确答案:A
三、判断题 (共 20 道试题,共 40 分)
31.所有的异步加载都会向后台发送请求
32.当运行爬虫代码后,出现"Forbidden by robots.txt"提示后,说明当前时间段被爬取的网站无法访问。
正确选项:--------
33.Python中元组生成以后还可以往里面继续添加数据,也可以从里面删除数据;
34.PyMongoDB中排序方法sort第二个参数-1表示升序
正确答案:D
35.通用网络爬虫通常采用串行工作方式
36.Python中写CSV文件的writerows方法参数为字典类型
37.在对XPath返回的对象再次执行XPath的时候,子XPath开头需要添加斜线
38.MongoDB URI的格式为: mongodb://服务器IP或域名:端口@用户名:密码
正确答案:A
39.操作文本难以实现自动化,而操作图形界面可以容易的实现自动化。
40.如果MongoDB运行在所在的计算机上,MONGODB_HOST应该写成"192.168.0.1"
正确答案:D
41.在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
正确选项:--------
42.在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的
43.Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库
正确答案:A
44.HTTP只能通过POST请求才能发送数据
45.如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
46.使用AJAX技术,可以在不刷新网页的情况下更新网页数据
47.”curl 爬虫服务器IP地址:6800/cancel.json -d project=工程名 -d job=爬虫JOBID“该命令的作用是启动爬虫
正确答案:A