北京同城必应科技有限公司10月招聘面试题171道20201017

使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。()

此题为判断题(对,错)。


正确答案:对


对系统未能按规则抓取到的可疑案例,由()进行添加。

A、系统

B、人工

C、大额

D、可疑


答案:B


位图可以用画图程序获得、用荧光屏上直接抓取、用扫描仪或视频图象抓取设备从照片等抓取、购买现成的图片库。()

A、错误

B、正确


参考答案:B


取避污纸的正确方法是

A.由别人传递

B.掀开页面抓取第2页

C.污染的手可以随便抓取

D.在页面上抓取

E.掀页撕取


正确答案:D
解析:避污纸的应用:保持双手或物品不被污染。使用时用抓取法,保持一面清洁。用后弃于污物桶内定时焚烧。


使用避污纸正确的方法是

A、戴手套后拿取

B、用镊子夹取

C、从上面中间抓取

D、经他人传递

E、掀开抓取


参考答案:C


北京同城必应科技有限公司10月招聘面试题面试题面试官常问到的一些题目整理如下:问题 Q1:遇到过得反爬虫策略以及解决方法?可用的回答 : 反爬虫策略: 1.通过headers反爬虫 2.基于用户行为的发爬虫(同一IP短时间内访问的频率,封IP) 3.动态网页反爬虫(通过ajax请求数据,或者通过JavaScript生成) 4.对部分数据进行加密处理的(数据是乱码) 解决方法: 1. 对于基本网页的抓取可以自定义headers,添加headers的数据 2. 使用多个代理ip进行抓取或者设置抓取的频率降低一些, 3. 动态网页的可以使用selenium + phantomjs 进行抓取 4. 对部分数据进行加密的,可以使用selenium进行截图,使用python自带的pytesseract库进行识别,但是比较慢最直接的方法是找到加密的方法进行逆向推理。 问题 Q2:生成器?可用的回答 :生成器的本质就是一个逐个返回元素的函数,即“本质函数”最大的好处在于它是“延迟加载”,即对于处理长序列问题,更加的节省存储空间。即生成器每次在内存中只存储一个值问题 Q3:参数如何通过值或引用传递?可用的回答 :Python中的所有内容都是一个对象,所有变量都包含对象的引用问题 Q4:有哪些工具可以帮助查找错误或执行静态分析?可用的回答 : PyChecker是一个静态分析工具,可以检测Python源代码中的错误,并警告错误的风格和复杂性。 Pylint是另一种验证模块是否符合编码标准的工具。 auto-pep8工具也可以进行静态代码检查 问题 Q5:一行代码实现1-100之和?可用的回答 :使用sum函数。sum(range(1, 101)问题 Q6:urllib 和 urllib2 的区别?可用的回答 : urllib 和urllib2都是接受URL请求的相关模块, 但是urllib2可以接受一个Request类的实例来设置URL请求的headers, urllib仅可以接受URL。urllib不可以伪装你的User-Agent字符串。 urllib提供urlencode()方法用来GET查询字符串的产生,而urllib2没有。 这是为何urllib常和urllib2一起使用的原因。 问题 Q7: scrapy分为几个组成部分?分别有什么作用?可用的回答 : 分为5个部分; 1. Spiders(爬虫类) 2. Scrapy Engine(引擎) 3. Scheduler(调度器) 4. Downloader(下载器) 5. Item Pipeline(处理管道) 具体来说: Spiders:开发者自定义的一个类,用来解析网页并抓取指定url返回的内容。 Scrapy Engine:控制整个系统的数据处理流程,并进行事务处理的触发。 Scheduler:接收Engine发出的requests,并将这些requests放入到处理列队中,以便之后engine需要时再提供。 Download:抓取网页信息提供给engine,进而转发至Spiders。 Item Pipeline:负责处理Spiders类提取之后的数据。 比如清理HTML数据、验证爬取的数据(检查item包含某些字段)、查重(并丢弃)、将爬取结果保存到数据库中 问题 Q8:什么是arp协议?可用的回答 : ARP(Address Resolution Protocol)即地址解析协议, 用于实现从 IP 地址到 MAC 地址的映射,即询问目标IP对应的MAC地址。 问题 Q9:def func(a,b=) 这种写法有什么坑?可用的回答 : def func(a,b=): b.append(a) print(b) func(1) func(1) func(1) func(1) 如:看下结果 1 1, 1 1, 1, 1 1, 1, 1, 1 函数的第二个默认参数是一个list,当第一次执行的时候实例化了一个list,第二次执行还是用第一次执行的时候实例化的地址存储, 所以三次执行的结果就是 1, 1, 1 ,想每次执行只输出1 ,默认参数应该设置为None。 问题 Q10:IO多路复用的作用?可用的回答 : 基本概念 IO多路复用是指内核一旦发现进程指定的一个或者多个IO条件准备读取,它就通知该进程。 IO多路复用适用如下场合: (1)当客户处理多个描述字时(一般是交互式输入和网络套接口),必须使用I/O复用。 (2)当一个客户同时处理多个套接口时,而这种情况是可能的,但很少出现。 (3)如果一个TCP服务器既要处理监听套接口,又要处理已连接套接口,一般也要用到I/O复用。 (4)如果一个服务器即要处理TCP,又要处理UDP,一般要使用I/O复用。 (5)如果一个服务器要处理多个服务或多个协议,一般要使用I/O复用。 与多进程和多线程技术相比,I/O多路复用技术的最大优势是系统开销小, 系统不必创建进程/线程,也不必维护这些进程/线程,从而大大减小了系统的开销。 算法题面试官常问到的一些算法题目整理如下(大概率会机考):算题题 A1:统计小于自身且在自身之后的数题目描述如下:You are given an integer array nums and you have to return a new counts array. The counts array has the property where countsi is the number of smaller elements to the right of numsi.Example:Input: 5,2,6,1Output: 2,1,1,0 Explanation:To the right of 5 there are 2 smaller elements (2 and 1).To the right of 2 there is only 1 smaller element (1).To the right of 6 there is 1 smaller element (1).To the right

避污纸的使用方法正确的是

A、污染的手掀页撕取

B、清洁的手掀页撕取

C、污染手和清洁手均可从页面抓取

D、污染的手方可从页面抓取

E、清洁的手方可从页面抓取


参考答案:C


下图是使用wireshark抓取一个TCP数据报文段的截图(注意wireshark中的数据不包含FCS的4个字节)

则此TCP报文段可以传送的数据部分最大为( )字节。

A.552
B.512
C.498
D.450

答案:C
解析:
由图可知,该帧的大小为552字节,由于传输层TCP数据段头部最小长度为20字节,网络层IP数据包头部最小长度为20字节,数据链路层除去FCS校验字段的长度大小为6+6+2,所以可以得出该TCP报文段可以传送的数据部分最大为498字节,计算公式为:552-20-20-6-6-2=498。


使用加密软件加密数据时,往往使用数据库系统自带的加密方法加密数据,实施()

  • A、DAC
  • B、DCA
  • C、MAC
  • D、CAM

正确答案:A


如果要完整抓捕交换机其它端口数据,以下方法()可以实现

  • A、连到交换机任意端口,直接抓取即可
  • B、端口映射到待抓捕端口,再抓报文
  • C、先将该端口接到Hub,通过Hub抓取
  • D、接到交换机控制口抓取报文

正确答案:B


使用了百度分享的网页可以更快地被百度爬虫发现,从而帮助网站的内容更快地被百度抓取。请问百度分享能使网页被快速抓取的原因是什么?()

  • A、百度分享吸引爬虫抓取链接到百度数据库中,再由爬虫提交收录
  • B、真实分享行为可以将链接直接存储到百度数据库中,并加速爬虫提交收录
  • C、爬虫直接将分享的链接提交收录
  • D、百度分享只能加速爬虫从数据库提交收录,不能影响链接的存储

正确答案:B

更多 “北京同城必应科技有限公司10月招聘面试题171道20201017” 相关考题
考题 关键词检索类型的搜索引擎的工作原理是()A、在索引数据库中排序->从互联网上抓取网页->建立索引数据库B、从互联网上抓取网页->建立索引数据库->在索引数据库中排序C、建立索引数据库->从互联网上抓取网页->在索引数据库中排序D、以上都不正确正确答案:B

考题 搜索引擎的原理包括的步骤是()。A、从互联网上抓取网页B、建立索引数据库C、在索引数据库中搜索排序D、对网页进行过滤正确答案:A,B,C

考题 抖音企业号用户可以设置私信自动回复功能,系统会抓取用户的留言关键词,进行针对性的答复,此举可以有效提高用户粘度。正确答案:正确

考题 实验人员在进行动物实验时,必须以正确和适宜的方式抓取动物,禁止对动物采取()、粗暴的抓取方法。A、快速B、简单C、突然D、灵活正确答案:C

考题 如果要屏幕上的相关资料,可以按键盘上的()键进行全屏幕图像的抓取。A、EscB、PrintScreenC、CapsLockD、ScrollLock正确答案:B

考题 单选题常用的混合加密(HybridEncryption)方案指的是:()A 使用对称加密进行通信数据加密,使用公钥加密进行会话密钥协商B 使用公钥加密进行通信数据加密,使用对称加密进行会话密钥协商C 少量数据使用公钥加密,大量数据则使用对称加密D 大量数据使用公钥机密,少量数据则使用对称加密正确答案:A解析:暂无解析

考题 判断题位图可以用画图程序获得、从荧光屏上直接抓取、用扫描仪或视频图像抓取设备从照片等抓取、购买现成的图片库。A 对B 错正确答案:错解析:暂无解析

考题 多选题搜索引擎的原理包括的步骤是()。A从互联网上抓取网页B建立索引数据库C在索引数据库中搜索排序D对网页进行过滤正确答案:C,A解析:暂无解析

考题 搜索引擎是如何运作的?()A、从互联网上抓取网页-建立索引数据库-在索引数据库中搜索排序-用户信息查询B、建立索引数据库-在索引数据库中搜索排序-用户信息查询-从互联网上抓取网页C、在索引数据库中搜索排序-用户信息查询-从互联网上抓取网页-建立索引数据库D、用户信息查询-从互联网上抓取网页-建立索引数据库-在索引数据库中搜索排序正确答案:A

考题 单选题使用避污纸正确的方法是()。A 掀开抓取B 用镊子夹取C 戴手套后拿取D 经他人传递E 从上面中间抓取正确答案:D解析:暂无解析