广州市品高软件股份有限公司5月招聘面试题109道2020510

爬虫的源代码通过公开不会对被爬虫网站造成影响()

此题为判断题(对,错)。


正确答案:错


局域网连接Internet所用到的IPX/SPX协议中文意思是:()

A.网络数据包交换协议

B.序列分组交换协议

C.传输控制协议

D.网际协议


参考答案:A, B


()爬行过程中最重要部分就是表单填写及处理。

A、聚焦网络爬虫

B、增量式网络爬虫

C、通用网络爬虫

D、深层网络爬虫


参考答案:D


()采集的目标是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。

A、聚焦网络爬虫

B、增量式网络爬虫

C、通用网络爬虫

D、深层网络爬虫


参考答案:D


以下关于网络爬虫的说法,不正确的是()。

A、网络爬虫还可以对网页建立索引

B、有些网络爬虫能够从网站抓取内容聚合起来

C、有些网络爬虫甚至能发动DDos攻击、发送垃圾邮件等

D、隐藏在表单后的信息无法被网络爬虫发现


参考答案:D


广州市品高软件股份有限公司5月招聘面试题面试题面试官常问到的一些题目整理如下:问题 Q1:描述一下scrapy框架的运行机制?可用的回答 : 从start_urls里面获取第一批url发送请求,请求由请求引擎给调度器入请求对列,获取完毕后, 调度器将请求对列交给下载器去获取请求对应的响应资源,并将响应交给自己编写的解析方法做提取处理,如 果提取出需要的数据,则交给管道处理,如果提取出url,则继续执行之前的步骤,直到多列里没有请求,程序结束。 问题 Q2:json序列化时,默认遇到中文会转换成unicode,如果想要保留中文怎么办?可用的回答 :json.dumps函数方法中加上参数 ensure_ascii = False问题 Q3:说说什么是爬虫协议?可用的回答 : Robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt, 网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。 问题 Q4:描述数组、链表、队列、堆栈的区别?可用的回答 : 数组与链表是数据存储方式的概念,数组在连续的空间中存储数据,而链表可以在非连续的空间中存储数据; 队列和堆栈是描述数据存取方式的概念,队列是先进先出,而堆栈是后进先出; 队列和堆栈可以用数组来实现,也可以用链表实现。 问题 Q5:常见的HTTP状态码有哪些?可用的回答 : 200 OK 301 Moved Permanently 302 Found 304 Not Modified 307 Temporary Redirect 400 Bad Request 401 Unauthorized 403 Forbidden 404 Not Found 410 Gone 500 Internal Server Error 501 Not Implemented 问题 Q6:用Python匹配HTML tag的时候,和有什么区别?可用的回答 :术语叫贪婪匹配( )和非贪婪匹配( )问题 Q7:提到Python中局部变量和全局变量的规则是什么?可用的回答 :局部变量:如果在函数体内的任何位置为变量赋值,则假定它是本地的。全局变量:仅在函数内引用的那些变量是隐式全局变量。问题 Q8: scrapy分为几个组成部分?分别有什么作用?可用的回答 : 分为5个部分; 1. Spiders(爬虫类) 2. Scrapy Engine(引擎) 3. Scheduler(调度器) 4. Downloader(下载器) 5. Item Pipeline(处理管道) 具体来说: Spiders:开发者自定义的一个类,用来解析网页并抓取指定url返回的内容。 Scrapy Engine:控制整个系统的数据处理流程,并进行事务处理的触发。 Scheduler:接收Engine发出的requests,并将这些requests放入到处理列队中,以便之后engine需要时再提供。 Download:抓取网页信息提供给engine,进而转发至Spiders。 Item Pipeline:负责处理Spiders类提取之后的数据。 比如清理HTML数据、验证爬取的数据(检查item包含某些字段)、查重(并丢弃)、将爬取结果保存到数据库中 问题 Q9:Python中的module和package是什么?可用的回答 :在Python中,模块是构造程序的方式。每个Python程序文件都是一个模块,它导入其他模块,如对象和属性。Python程序的文件夹是一个模块包。包可以包含模块或子文件夹。问题 Q10:什么是反射?以及应用场景?可用的回答 : 通过字符串获取对象的方法称之为反射 python中可以通过如下方法实现: 1. getattr 获取属性 2. setattr 设置属性 3. hasattr 属性是否存在 4. delattr 删除属性 算法题面试官常问到的一些算法题目整理如下(大概率会机考):算题题 A1:相乘最大的子数组题目描述如下:Given an integer array nums, find the contiguous subarray within an array (containing at least one number) which has the largest product.Example 1:Input: 2,3,-2,4Output: 6Explanation: 2,3 has the largest product 6.Example 2:Input: -2,0,-1Output: 0Explanation: The result cannot be 2, because -2,-1 is not a subarray.给一个数组,找出其中连续的子数组中,相乘最大的一组。这个算法和 maximum subarray 很相似,那个每个点的状态是 负数的话就可以断开,这个的话不行。但也是一样的,一开始的思路是遇到负数不断开,遇到负数会乘原来的数,然后把自己加进去也作为因子。1.看下面注释掉的写法。这种写法对于负数并不多的可以很有效。但对付负数较多的则力不从心。184个测试跑到183个就TLE了。2. 基于 1. 的改进,1. 中主要是会一直加一直加,导致最差将时间复杂度升高到 O(n)。但对于每个点来说其实只需要保留两种状态:第一种个状态是其中的最大值,还有一个是最小值。2, -5, -2, -4, 3这个例子中,-2 这个点若按 1. 中的写法积累下来应为 20, 10, -2。但10是没有必要的,-5*-2显然是没有 2*-5*-2大,而且即使后面无论是什么数都不可能出现正数 -5*-2 * x 2*-5*-2*x的情况。x在正数的情况下不可能大于 2x。当x是负数时也基本不会用到它,因为求的是最大值,后面只有出现另一个负数才会相乘得正,x*-y 也不可能大于 2x*-y 的。所以2算是给1做了剪枝。这个算法还不错,40ms,前面的也都是基于同样的思路,只保存最大最小。效率 O(n)。看了 Discuss 好像也都是这个写法。测试地址:https:/ Solution(object): d

在使用Java实现网络爬虫时,由于InputStream类型默认是字节流,无法处理中文,将会出现乱码。要解决中文乱码的问题,需将其转换为(),这样就可以读取中文。

A、无符号数字

B、UNICODE编码

C、字节流

D、字符流


参考答案:D


如果要采集指定的数据,则需要使用到(),又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

A、增量式网络爬虫

B、聚焦网络爬虫

C、DeepWeb爬虫

D、全网爬虫


参考答案:B


如果要采集指定的数据,则需要使用到(),因为它只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快。

A、聚焦网络爬虫

B、聚焦网络爬虫

C、通用网络爬虫

D、深层网络爬虫


参考答案:A


()又称全网爬虫,爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。

A、聚焦网络爬虫

B、增量式网络爬虫

C、通用网络爬虫

D、深层网络爬虫


参考答案:C


根据材料回答 27~31 问题:

问题:

第 27 题

乙、丁间协议的性质是什么?该协议是否生效?


正确答案:
乙、丁间协议有两种性质:一是债务承担,由丁承担乙的债务;二是代物清偿,丁的原定给付是向乙给付货币,现以承担乙的债务代替,债务承担生效后,乙、丁间债的关系消灭。乙、丁问协议生效。根据《合同法》的规定,债务承担经债权人同意后生效,本案债权人甲公司已经同意。

更多 “广州市品高软件股份有限公司5月招聘面试题109道2020510” 相关考题
考题 下列不属于搜索引擎中“搜索器”工作程序的是______。A.网络机器人B.蜘蛛C.爬虫D.CuteFTP答案:D

考题 多选题局域网连接Internet所用到的IPX/SPX协议中文意思是:()A网络数据包交换协议B序列分组交换协议C传输控制协议D网际协议正确答案:B,A解析:暂无解析

考题 下列选项中,关于robots.txt文件的说法正确的是()A、robots.txt文件存放于空间根目录下B、robots.txt是搜索引擎蜘蛛访问网站的时候要查看的第一个文件C、如果robots.txt不存在,搜索引擎蜘蛛将能够访问网站上所有未被口令保护的页面D、robots.txt文件只需要存放在空间任意位置就行正确答案:A,B,C

考题 下列不属于搜索引擎中“搜索器”工作程序的是()。A网络机器人B蜘蛛C爬虫DCuteFTPD略

考题 Robots.txt文件是搜索引擎抓取网站第一个需要查看的文件,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。在www.domain.com中,如禁止所有搜索引擎程序抓取www.domain.com/A下所有内容,Robots文件应如何设置?()A、"User-agent:*Disallow:/A"B、"User-agent:Allow:/A"C、"User-agent:Disallow:/"D、"User-agent:*Allow:/"正确答案:A

考题 关于网络爬虫协议文件robots.txt,说法错误的是()A、一个网站可以放多个不同robots文件B、robots文件不可以用xml格式命名C、disallow用来描述不希望被访问到的一个URLD、robots文件可以放在任何位置正确答案:A,B,D

考题 搜索器也称为蜘蛛、机器人或( )。A)索引器B)探索器C)爬虫D)蠕虫正确答案:C搜索器也称为蜘蛛、机器人或爬虫。选项A)中的索引器的功能是理解搜索器所搜索的信息,从中抽取索引项,用于表示文档以及生成文档库的索引表;选项B)中的探索器不是搜索引擎的基本组成;选项D)中的蠕虫是计算机病毒。

考题 单选题下列不属于搜索引擎中“搜索器”工作程序的是()。A 网络机器人B 蜘蛛C 爬虫D CuteFTP正确答案:D解析:暂无解析

考题 下列不属于搜索引擎中“搜索器”工作程序的是()。A、网络机器人B、蜘蛛C、爬虫D、CuteFTP正确答案:D

考题 多选题关于网络爬虫协议文件robots.txt,说法错误的是()A一个网站可以放多个不同robots文件Brobots文件不可以用xml格式命名Cdisallow用来描述不希望被访问到的一个URLDrobots文件可以放在任何位置正确答案:A,B解析:暂无解析