奥鹏作业答案-谋学网-专业的奥鹏在线作业答案辅导网【官网】

 找回密码
 会员注册

微信登录,扫一扫

手机号码,快捷登录

VIP会员,3年作业免费下 !奥鹏作业,奥鹏毕业论文检测新手作业下载教程,充值问题没有找到答案,请在此处留言!
2022年5月最新全国统考资料投诉建议,加盟合作!点击这里给我发消息 点击这里给我发消息
奥鹏课程积分软件(2021年最新)
查看: 1000|回复: 3

《网络爬虫与信息提取》20春期末考核(参考资料)南开大学 资料

[复制链接]
发表于 2020-9-3 15:37:05 | 显示全部楼层 |阅读模式
谋学网
《网络爬虫与信息提取》20春期末考核-00001
) i; C. d2 G0 y1 J试卷总分:100  得分:70
4 a$ Q, t9 B" o一、单选 (共 20 道试题,共 40 分)6 L# m4 c# S1 V+ j, l" \
1.如果使用Python的数据结构来做类比的话,MongoDB中文档相当于一个()
2 j; j& V8 a  B) m# D8 D, IA.列表
5 j$ L) K% y; i; Y7 m4 OB.元组
- W3 P# h9 y6 A( ^7 t0 [C.字典
; h0 r, \4 i2 R# `" |5 h$ sD.集合1 }) h1 T2 u6 k5 J+ n
正确资料:3 c1 {3 Y8 z; e# N. E

& S! Q0 \# l  Q- V' d2.使用UI Automatorr输入文字的操作是得到相应控件后使用命令()+ s+ B) b* A" |
A.settext7 r( ?- a! x: D- v! W
B.set& ^: S& K" P( _1 I: ^
C.set_text
3 D( B3 z# ^8 U/ n3 ~D.text
) u& H% Q7 M% s! F9 a0 H) P正确资料:# {9 z/ K4 x& V4 f/ ?5 h' m) J6 g
* A. n' x7 q% ^* ~) X  x
3.在Scrapy的目录下,哪个文件负责存放爬虫文件?()
, S" ~' V- ?/ f6 `$ h  lA.spiders文件夹
1 B7 f* v! W! b" p: tB.item.py! b3 u' N' j0 m
C.pipeline.py
8 L+ _" f. t$ s5 _0 gD.settings.py, G! x- i. }9 G0 _
正确资料:, D" S7 `9 d& y) K. E2 B7 q
) e+ o' c( n4 t2 [
4.HTTP常用状态码表明服务器正忙的是()
% i% H& w) v0 W1 ^A.5008 f* [# y* M9 |
B.503
+ r& ^0 z5 K4 U( I& E0 _3 CC.403
  p% M" F1 s( H+ G7 GD.4046 l3 a3 w% [# V9 L
正确资料:
3 _9 |8 a6 U/ I- P" V) F  L3 Y
' C" n4 R! J9 N0 z5.如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击
! b' l7 p% q6 v3 u8 b, r( vA.XSS" D! M+ s7 q4 R8 |/ w) q2 ~0 Y' c
B.DOS, X1 v0 z+ E: V9 {- R
C.DDOS- O5 c" Q; U& E) c
D.跨域
* T& H7 h4 k/ F& S6 B3 z- ?正确资料:
+ U1 h: @8 r5 u. b- C2 g' z2 m% D- p9 H+ J/ Y
6.使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令()3 D# r; Y1 g! }$ `/ z- I
A.exist+ x% c: Y6 ?7 u2 P& @
B.exists
) h( {  x0 p6 H  RC.isnull& [. `  t1 c! V5 h8 B2 w
D.contains
- c: M; K% D$ c正确资料:
9 t  W3 P4 l0 }9 c7 p! `& i% T9 \" W4 K
7.带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率
  G9 G, Y1 N' wA.Cookie
5 ~" p$ x: [& B; A9 v; {* rB.Html
6 J( c/ e0 ^% @! y3 p+ UC.Headers
, K( H: W! c0 A! t( a. eD.CSS$ f* V2 A. |9 u3 F
正确资料:* _- M7 ?9 h, g/ g+ n
5 s' \- k2 B' O+ p5 o* P* O& ~
8.Redis中查看一个列表长度,使用关键字()9 k' t3 `: B2 o/ L: [/ C4 ]# k$ ^( ?
A.len8 X) m) o( V& b" ?
B.length
4 d& N6 [% D, A% LC.llen
/ u, F: n- I' u3 i" @" \D.count5 E. }& |) v! N4 O8 ]8 [) ]3 \
正确资料:
5 E& b; o9 T4 P' ?+ c! p; t) b' H6 U4 O$ ]7 h$ s0 z
9.使用Xpath获取文本使用()8 I+ Z3 ]4 B4 G" B. U1 K
A.text
2 R5 h" a" x; K, {$ u$ {# UB.text()
" h5 G3 X# A% l8 WC.content
3 b7 g1 I9 k0 d6 E0 L. ]D.content()
' X: [! ^" Q6 I5 j/ t7 |正确资料:
9 L# ?9 w0 d+ x  z9 K$ {4 h
, v% c9 V' c5 b: f10.使用python定制mitmproxy,下面的语句请求的是()。{req.headers["User-Agent"]}  h( P3 p, n; w' }  g* h8 }, \2 k1 @
A.headers
/ k6 ~+ v* o% L1 Q  j! _* R  ZB.文本内容& \) C7 c: H7 H
C.目标网站
: F2 K: D  _! I1 j. [, _D.user-agent
6 P. D! n+ \0 g- i正确资料:% }6 _% _: _. R  E$ E

! O( R4 r" s- q  @( V& N. \1 a11.Python中Object={1, 2, 3, 4, 5},则Objcet是()9 a' [+ j( E: W  ]! P1 }7 X) d
A.列表6 R4 w) |; G* c( ~' m8 p, w" i3 v
B.元组
! \7 f7 \. i3 J# n4 tC.字典: M, W! m% k4 n3 S2 k0 O+ ^. C
D.集合* E; ^3 D# f+ n' Y  }  f+ X
正确资料:
! p. h6 i) Y) t+ _5 l" R. {$ j, z* X* s) }- V
12.在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()2 l9 \. P4 r- {0 @4 h
A.spiders文件夹/ t8 g5 N2 W% k- `8 |
B.item.py
$ u7 y& z, y, n" EC.pipeline.py' g' p  N* `8 |. `; n9 ~( \
D.settings.py
8 k4 `8 x2 r, K" J正确资料:
( K! l& V& f  K! n- S9 D1 ]. l5 N
) I4 r; ]# j( F1 e7 f8 S% N; v13.Redis是一个开源的使用()语言编写
- S& |5 `; Z  c& Y7 RA.ANSI C/ u) ~" n9 c9 J% |5 Y' k
B.C++
- m( f4 J% T' JC.JAVA
6 h  N0 g3 K0 Y0 B8 x% Y: ~D.Python/ ?5 F% A8 s) _  C8 f, H
正确资料:
1 V$ }, r9 {  ~' i3 g! Z: T2 Q- ^5 j$ Y  A7 R
14.某些网站在发起Ajax请求时会携带()字符串用于身份验证  o4 ~8 i, V2 H; D- D
A.Token
) m5 n$ b& a$ M9 s# kB.Cookie+ G9 Q* m. z! f! D* |, m. W
C.ReqTime
3 N$ @  I" h+ ]8 WD.sum# O) M5 J( {7 R! n: t- J, ^
正确资料:/ E' H* S3 Y& I* x0 S. v
5 @" [2 O! v  q
15.使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令()
2 I1 p' t6 F2 G8 [& L1 S: k, K! J& [A.wakeup
% z' U/ ~+ d; o0 C! R5 \B.light5 c7 g( m: o5 D4 @2 b: h
C.bright$ U0 t) d- j/ g' p: N4 c
D.sleep
: a: r1 ?3 G& x6 x, f1 J  I正确资料:
* y- d$ f9 a$ [' E; L3 r; M- P, _$ w9 N$ Z
16.Chrome的开发者工具中哪个选项可以查找到cookies
1 v8 ~1 N+ Y4 s9 w: iA.Elements. S; c5 y8 t7 A9 G8 H( n. T
B.Sources
0 O( C* \) q* D( H6 |C.Network* u( t2 x4 i$ _. K3 ~/ s
D.Peformance
; q& ?. a$ C/ s6 \% D$ Y正确资料:
" n: c9 n, ~% j0 N- [6 R6 @
1 J" @: S+ d- q9 h; S5 p5 t4 ^17.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
7 t- E2 l" _$ y5 g2 k5 I: dA.列表
4 k. a6 b4 v( U. M3 c9 eB.元组
% V+ F4 T0 _4 \, ?C.字典# x% _, _) a! E1 H2 @6 \: _
D.集合$ J0 U* W- J& Y1 l& H  a
正确资料:4 T' }, Q) A7 _+ x; n  Z

7 X6 a$ ^8 d- L$ f/ T18.以下哪个命令是创建文件夹命令()
  H# h$ d6 r. sA.curl
" H' }( s5 x, h1 S8 TB.tar -zxvf
. y& Q0 y9 t* {& XC.mkdir
* d/ Y" d% W2 m* x9 ED.cp5 F5 k# D! H' A0 U: r! x' P: b
正确资料:$ t* y( Q4 D4 O7 V

2 `% I) |$ }! _5 u5 e' L: U19.可以通过()绕过网站登录。+ h9 O8 z7 y- j  j
A.session
0 A( }: v: i; P% IB.cookies# X: E( l* S0 k
C.moonpies
* m  n$ r. j/ l4 h% b9 ED.localstorage
/ v; t: `5 C  b4 \( c7 c9 t1 Q正确资料:
9 X) G8 F9 h* I( x% u6 Q. t9 b  {4 r$ F( B' @$ E* j
20.Python中把列表转换为集合需要使用##函数
7 V; E  {% k2 g5 n8 D& ]9 nA.set
, \5 l5 m6 y7 W; v1 XB.list; z" a* ?' f+ q/ m+ ^& A4 I( l4 N
C.convert6 ]. d# q; d( M0 P
D.change; C: n" x8 P7 x6 B# U* r
正确资料:$ ]; R6 p& Z# X$ N* l( C' b* W# v( X
( m4 h! H# P5 u
二、多选题 (共 5 道试题,共 10 分)
0 ^& [# n& }; f! |2 z6 }# y6 E21.Python中的容器有()
0 {% R0 Q& h- `) lA.列表" ?9 ~% R0 J! \! e
B.元组
, N5 r" v: b) [8 ^: w+ A5 AC.字典0 W9 `: R9 r' k! X* b& }
D.集合
7 K. ~0 K& n3 W/ {* f% `3 y正确资料:BCD  Y6 t# A* g. c
3 z  P, T. R6 `$ L7 ~
22.HTTP常用状态码表明表明服务器本身发生错误的有()
  ^0 b- Z' N( z3 I4 hA.403! I5 s# Y) g3 U! h
B.404( Z; Y7 d; Z6 \; C1 i' m5 O7 _5 ^
C.5007 c. m) j7 |- w! k
D.5037 v" W4 ]' |9 H7 U
正确正确资料:
+ S* V' c' Z% y  K# J0 H4 v" k0 h: ^' ?' a" a/ s
23.Python中哪种容器生成后可以修改内容
2 n  s( P5 z, A* UA.列表; \2 d' m' O6 u- n3 ]
B.元组3 d6 R: {" n% A1 G& S
C.字典
' C+ Q5 Z1 U* q8 @5 |4 hD.集合
2 H! @+ R! ^0 V1 o正确正确正确资料:
3 ~7 b8 f& n# S" o* T0 f# H
& z5 u4 O* z( I" t+ b2 [, s24.最常见的HTTP请求类型有()& G# ]. E1 S! ~7 `
A.GET
: H/ v# [' _. g( Y; z7 \B.POST: ?  ^" [, Y1 P6 Z
C.SEND
5 R, c* ?. }7 q7 D, AD.RECEIVE& z( U( _- q! {: p9 j9 e( B/ N
正确资料:B
4 V. c4 V# s/ b8 E) L2 B5 B) t0 Z' G3 E5 {% X6 M. I7 [: A
25.BS4可以用来从()中提取数据
9 J+ I( f$ m' K, p$ L& c) \A.HTML; z8 M4 K7 ^" G
B.XML# d8 ?% \2 ?0 Z
C.数据库" Z: |8 O5 ^6 p" m- R$ V% b
D.JSON
3 `& [* }' `+ Y正确资料:B
/ b" m5 Z% ?1 G1 a" l4 s
6 C* [2 |$ q$ _6 _0 |三、资料来源:谋学网(www.mouxue.com) (共 10 道试题,共 20 分)
9 f/ b; X$ N$ h* e& w$ c26.在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装
* x; ~. D. E, K) s/ v2 I$ j资料:错误
9 O! H" g  V5 m8 E/ u/ e) ?6 X/ ^
27.使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码, P  S5 E! A9 {% s/ t6 F7 H  A+ H
资料:正确
# v) x( n0 e! z" |) G3 Q7 d; W2 I/ e0 x$ F, A, D& t* x- o
28.process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用! R9 q5 g4 h" v& }& ^
资料:错误: D! W3 s0 F, e  w3 F

+ j4 T& z6 r. |29.Robo 3T与RoboMongo是完全不一样的软件
6 C( d8 C6 C& ]: O* l资料:错误. Y/ K, I8 n! s' B8 J+ E2 H& O4 L

6 `8 L* s; E2 {5 K# V% v7 p# ?/ `30.Python正则表达式中".*?"是非贪婪模式,获取最短的能满足条件的字符串。* b$ u, E' i% ?: _2 I. e
资料:正确
9 ^- l5 n& b% P* D% c; M* Q
) s9 r: Z; ?% W* m/ p: Q( K; F31.Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取
. \; N: I. }- s' [资料:错误, \+ j. [* z4 E2 ^1 g+ o

' L) |9 g. G9 p* H. ~32.爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行' s& F- f2 {& ?* [: Q! t# [
资料:错误
# W; c. z6 A- i* w6 m) [% t- w9 S* t5 [1 z$ l3 w3 B1 j1 c
33.在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
* ]. U/ V: h  D8 E资料:错误6 A9 k5 g& M0 k* ^5 D0 ~1 R
4 j0 V, ]5 ~( R/ Q2 J0 `
34.middlewares.py是下载器中间件5 H  `4 S" |; K% }+ ^; l
资料:错误2 J* d5 F6 n6 Q% W

0 j; ~7 e) ?4 h35.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
; D7 ?& x) u) s9 ~1 q资料:错误
) C  K: D8 W/ y7 W* g; Z/ }0 x1 ^' ]/ G6 g) u' @$ }
四、主观填空题 (共 4 道试题,共 8 分)& o* L4 Z- r' ~5 w
36.使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控##中的数据,并不读取start_urls中的数据。
' h1 ~& N! [, i" ^资料:Redis
. @" A9 |: v/ O4 j- |. a  a& R8 L5 ]5 a; y) [
37.一般通过##表达式来解析网页数据
$ J- F5 O6 g) A6 _& ~0 G* C资料:正则
1 v9 ^% e# F4 R' h
5 n4 D- F% e3 B& f  C; J2 Y38.实现异步加载需要利用##技术# ]# K  E$ g& T: Y' `6 \& E/ D
正确资料:jax
2 v6 \- M" ~: u* |3 ]
7 \. K2 ?8 H9 d) p) @+ q* N39.Python中定义函数关键字为##
4 m  ]. K! ~5 m5 g* h  H% O正确资料:ef
- x" Q5 _% A' R& \2 N% g, W6 V0 U3 L( y* o
五、更多资料下载:谋学网(www.mouxue.com) (共 2 道试题,共 10 分)
$ W, e& K: s7 v7 ^40.Python正则表达式中search和findall方法比较
' e: _6 O2 H- U2 X" x资料:search()的用法和findall()的用法一样,但是search()只会返回第1个满足要求的字符串。一旦找到符合要求的内容,它就会停止查找。<br><br>
$ u! {0 D7 s5 j9 q0 q% E0 Z+ N* s3 \- K
41.在MacOS下安装Scrapy,当pip的网络受到干扰导致安装的速度很慢时,应该如何应对?: o3 z, b' p8 p  A& X6 O1 u
资料:可以使用一些代理工具来让网络变得稳定,例如ProxyChains。8 J2 I1 p5 \: ^  @
& G/ j$ z' `; I' r
六、更多资料下载:谋学网(www.mouxue.com) (共 4 道试题,共 12 分)
& Q* i) n! a! e9 V  F- t42.multiprocessing4 N5 d$ Q( a8 [3 m
资料:multiprocessing本身是Python的多进程库,用来处理与多进程相关的操作( [/ J- e4 s; D/ s/ ^/ p3 i
8 w5 [+ V- c( S6 T
43.URI1 f- B. Z+ m! G$ T; Q1 c0 f6 f
资料:Uniform Resource Identifier,统一资源标志符<br><br>( H5 ^$ p7 I: B3 {& ?- J1 w% t

6 O" @1 j1 L# u44.CSS
5 ]) Y" z! Z, F, I# s  `正确资料:ascading Style Sheets,层叠样式表<br><br>
' C. p+ d6 A8 j' i/ i0 T) r1 J: u1 f7 T, v9 e, M
45.HTML
! M) Q) t% T7 G% P' h, B( p$ H资料:HTML是一种结构化的标记语言,可以描述一个网页的结构信息<br><br>
- J" g, x) i+ V/ v( n
6 D- A8 p; F5 S; J7 t/ O# F; B! G# ^- v
6 }1 C2 `; {6 r5 U# T: T

& g% R3 L  h  e5 K$ K! P/ J( L# z. B. {. l( Q
+ H; d  f/ g6 T5 W5 {# k

0 Z4 l# V+ r/ u# `3 z  k5 I
( m; r, ~5 a' M2 z& E# l. `/ l  k' b, O: F0 m" T. W2 U7 F% W

% k. p- }/ N( b3 g9 Y3 A7 t6 w4 W6 P6 r! S; u7 [% L. F
4 \: D4 @6 V, s

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?会员注册

×
奥鹏作业答案,奥鹏在线作业答案
发表于 2020-9-3 16:16:45 | 显示全部楼层
奥鹏作业答案,奥鹏在线作业答案
回复

使用道具 举报

发表于 2020-9-3 16:57:10 | 显示全部楼层
奥鹏作业答案,奥鹏在线作业答案
回复

使用道具 举报

发表于 2020-9-3 17:51:45 | 显示全部楼层
奥鹏作业答案,奥鹏在线作业答案
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

 
 
客服一
客服二
客服三
客服四
点这里给我发消息
点这里给我发消息
谋学网奥鹏同学群2
微信客服扫一扫

QQ|关于我们|联系方式|网站特点|加入VIP|加盟合作|投诉建议|法律申明|Archiver|小黑屋|奥鹏作业答案-谋学网 ( 湘ICP备2021015247号 )

GMT+8, 2024-4-20 04:43 , Processed in 0.104929 second(s), 17 queries .

Powered by Discuz! X3.5

Copyright © 2001-2023 Tencent Cloud.

快速回复 返回顶部 返回列表