南开《网络爬虫与信息提取》19秋期末考核[答案]满分答案
《网络爬虫与信息提取》19秋期末考核-0001
一、单选题 (共 20 道试题,共 40 分)
1.如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击
A.跨域
B.XSS
C.DOS
D.DDOS
2.以下哪个HTML标签表示分区或节()
A.
B.
C.
D.
3.使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()
A.title
B.text
C.content
D.body
4.Python操作CSV文件可通过()容器的方式操作单元格
A.集合
B.字典
C.列表
D.元组
5.Python中Object=(1, 2, 3, 4, 5),则Objcet是()
A.集合
B.字典
C.列表
D.元组
6.HTTP常用状态码表明服务器正忙的是()
A.503
B.500
C.404
D.403
7.使用UI Automator打开微信的操作是获取相应图标后使用命令()
A.touch
B.push
C.hover
D.click
8.Python中Object={'obj_1':'1','obj_2':'2'},则Objcet.get('boj_1','3')是()
A.无输出
B.3
C.2
D.1
9.采用以下()技术可以实现异步加载
A.HTTP
B.HTML
C.CSS
D.AJAX
10.网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的()。
A.robot.txt
B.robots.txt
C.robots.html
D.robot.html
11.Chrome的开发者工具中哪个选项可以查找到cookies
A.Sources
B.Peformance
C.Network
D.Elements
12.以下哪个命令是linux下解压缩命令()
A.tar -zxvf
B.mkdir
C.curl
D.cp
13.MongoDB中数据存储的形式类似于()
A.集合
B.字典
C.列表
D.元组
14.以下哪个HTML标签表示定义列表项目()
A.
B.
C.
D.
15.python中可以用来将图片中的文字转换为文本的第三方类库是
A.requests
B.pytesseract
C.lxml
D.beautifulsoup
16.下列哪项不是HTTP的请求类型()
A.SET
B.PUT
C.POST
D.GET
17.以下哪个HTML标签表示定义 HTML 表格中的标准单元格()
A.
B.
C.
D.
18.当爬虫创建好了之后,可以使用"scrapy()" 命令运行爬虫。
A.starwar
B.startup
C.drawl
D.crawl
19.参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。
A.HEADERS
B.HEADER
C.HEAD
D.BODY
20.以下哪个命令是利用URL语法在命令行下工作的文件传输工具()
A.tar -zxvf
B.mkdir
C.curl
D.cp
南开《网络爬虫与信息提取》19秋期末考核[答案]多选题答案
二、多选题 (共 5 道试题,共 10 分)
21.MongoDB中获取名字为db的库的语句为()
A.client{'db'}
B.client['db']
C.client.db
D.client('db')
22.以下哪些方法属于Python写CSV文件的方法()
A.writerrows
B.writerow
C.writeheaders
D.writeheader
23.下载器中间件的作用有哪些?
A.自动重试
B.更换代理IP
C.更换User-Agent
D.更换Cookies
24.如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()
A.非法获取计算机数据罪
B.非法获取计算机信息系统数据罪
C.非法获取系统罪
D.非法侵入计算机系统罪
25.Python中()容器有推导式
A.集合
B.字典
C.列表
D.元组
三、判断题 (共 10 道试题,共 20 分)
26.通用网络爬虫通常采用串行工作方式
27.需要登录的网站一般通过GET请求就可以实现登录。
28.代理中间件的可用代理列表一定要写在settings.py里面
29.requests中get请求方法的使用为requests.get('网址', data=data)
30.所有的异步加载都会向后台发送请求
31.在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务 src/redis-server
32.爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。
33.爬虫中间件的激活需要另外写一个文件来进行
34.已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行
35.Linux环境中,Virtualenv创建的虚拟Python环境中,执行pip命令安装第三方库就不需要使用sudo命令了。
四、主观填空题 (共 4 道试题,共 20 分)
36.在Scrapy的依赖库文件中,pywin32和Twisted的底层是基于##开发的。
37.爬虫中间件scrapy.spidermiddlewares.urllength.UrlLengthMiddleware的顺序号是##
38.在Windows下运行Redis命令为##redis.windows.conf
39.MongoDB如果需要从外网访问数据库,那么需要修改安装MongoDB时用到的配置文件##
五、问答题 (共 2 道试题,共 10 分)
40.lxml库中etree模块的etree.tostring()方法是做什么用的
41.请描述爬虫中的深度优先搜索过程
南开《网络爬虫与信息提取》19秋期末考核[答案]历年参考题目如下: