《网络爬虫与信息提取》南开20春期末考核百分
《网络爬虫与信息提取》20春期末考核1.[单选题] 如果使用Python的数据结构来做类比的话,MongoDB中文档相当于一个()
答案资料下载请参考帮助中心说明
A.列表
B.元组
C.字典
D.集合
答:——C——
2.[单选题] 使用UI Automatorr输入文字的操作是得到相应控件后使用命令()
A.settext
B.set
C.set_text
D.text
答:——C——
3.[单选题] 在Scrapy的目录下,哪个文件负责存放爬虫文件?()
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
答:——A——
4.[单选题] HTTP常用状态码表明服务器正忙的是()
A.500
B.503
C.403
D.404
答:————
5.[单选题] 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击
A.XSS
B.DOS
C.DDOS
D.跨域
答:————
6.[单选题] 使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令()
A.exist
B.exists
C.isnull 东财答案请进 ap5u.com 或q761296021
D.contains
答:————
7.[单选题] 带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率
A.Cookie
B.Html
C.Headers
D.CSS
答:————
8.[单选题] Redis中查看一个列表长度,使用关键字()
A.len
B.length
C.llen
D.count
答:————
9.[单选题] 使用Xpath获取文本使用()
A.text
B.text()
C.content
D.content()
答:————
10.[单选题] 使用python定制mitmproxy,下面的语句请求的是()。{req.headers["User-Agent"]}
A.headers
B.文本内容
C.目标网站
D.user-agent
答:————
11.[单选题] Python中Object={1, 2, 3, 4, 5},则Objcet是()
A.列表
B.元组
C.字典
D.集合
答:————
12.[单选题] 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
答:————
13.[单选题] Redis是一个开源的使用()语言编写
A.ANSI C
B.C++
C.JAVA
D.Python
答:————
14.[单选题] 某些网站在发起Ajax请求时会携带()字符串用于身份验证
A.Token
B.Cookie
C.ReqTime
D.sum
答:————
15.[单选题] 使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令()
A.wakeup
B.light
C.bright
D.sleep
答:————
16.[单选题] Chrome的开发者工具中哪个选项可以查找到cookies
A.Elements
B.Sources
C.Network
D.Peformance
答:————
17.[单选题] Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A.列表
B.元组
C.字典
D.集合
答:————
18.[单选题] 以下哪个命令是创建文件夹命令()
A.curl
B.tar -zxvf
C.mkdir
D.cp
答:————
19.[单选题] 可以通过()绕过网站登录。
A.session
B.cookies
C.moonpies
D.localstorage
答:————
20.[单选题] Python中把列表转换为集合需要使用##函数
A.set
B.list
C.convert
D.change
答:————
21.[多选题] Python中的容器有()
A.列表
B.元组
C.字典
D.集合
答:————
22.[多选题] HTTP常用状态码表明表明服务器本身发生错误的有()
A.403
B.404
C.500
D.503
答:————
23.[多选题] Python中哪种容器生成后可以修改内容
A.列表
B.元组
C.字典
D.集合
答:————
24.[多选题] 最常见的HTTP请求类型有()
A.GET
B.POST
C.SEND
D.RECEIVE
答:————
25.[多选题] BS4可以用来从()中提取数据
A.HTML
B.XML
C.数据库
D.JSON
答:————
26.[判断题] 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装
A.对
B.错
答:————
27.[判断题] 使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码
A.对
B.错
答:————
28.[判断题] process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
A.对
B.错
答:————
29.[判断题] Robo 3T与RoboMongo是完全不一样的软件
A.对
B.错
答:————
30.[判断题] Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。
A.对
B.错
答:————
31.[判断题] Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取
A.对
B.错
答:————
32.[判断题] 爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行
A.对
B.错
答:————
33.[判断题] 在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
A.对
B.错
答:————
34.[判断题] middlewares.py是下载器中间件
A.对
B.错
答:————
35.[判断题] 在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
A.对
B.错
答:————
36.[填空题] 使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控##中的数据,并不读取start_urls中的数据。
答:————
37.[填空题] 一般通过##表达式来解析网页数据
答:————
38.[填空题] 实现异步加载需要利用##技术
答:————
39.[填空题] Python中定义函数关键字为##
答:————
40.[问答题] Python正则表达式中search和findall方法比较
答:————
41.[问答题] 在MacOS下安装Scrapy,当pip的网络受到干扰导致安装的速度很慢时,应该如何应对?
答:————
42.[名词解释] multiprocessing
答:————
43.[名词解释] URI
答:————
44.[名词解释] CSS
答:————
45.[名词解释] HTML
答:————
奥鹏南开考核答案无忧答案网整理
页:
[1]