深圳键桥通讯技术股份有限公司3月招聘面试题81道2020313

百度拥有两种类型的大数据()。

A、用户关系数据

B、用户搜索表征的需求数据

C、基于用户关系数据产生的社交数据

D、爬虫和阿拉丁获取的公共web数据

正确答案：BD

爬虫的源代码通过公开不会对被爬虫网站造成影响()

此题为判断题(对，错)。

正确答案:错

使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。

A、Redis

B、RedisSpider

C、Spider

D、MongoDB

参考答案：A

()爬行过程中最重要部分就是表单填写及处理。

A、聚焦网络爬虫

B、增量式网络爬虫

C、通用网络爬虫

D、深层网络爬虫

参考答案：D

()采集的目标是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。

A、聚焦网络爬虫

B、增量式网络爬虫

C、通用网络爬虫

D、深层网络爬虫

参考答案：D

深圳键桥通讯技术股份有限公司3月招聘面试题面试题面试官常问到的一些题目整理如下：问题 Q1：提到Python中局部变量和全局变量的规则是什么？可用的回答：局部变量：如果在函数体内的任何位置为变量赋值，则假定它是本地的。全局变量：仅在函数内引用的那些变量是隐式全局变量。问题 Q2：Python中的生成器是什么？可用的回答：实现迭代器的方法称为生成器。这是一个正常的函数，除了它在函数中产生表达式。问题 Q3：遇到过得反爬虫策略以及解决方法?可用的回答：反爬虫策略: 1.通过headers反爬虫 2.基于用户行为的发爬虫(同一IP短时间内访问的频率,封IP) 3.动态网页反爬虫(通过ajax请求数据，或者通过JavaScript生成) 4.对部分数据进行加密处理的(数据是乱码) 解决方法： 1. 对于基本网页的抓取可以自定义headers,添加headers的数据 2. 使用多个代理ip进行抓取或者设置抓取的频率降低一些， 3. 动态网页的可以使用selenium + phantomjs 进行抓取 4. 对部分数据进行加密的，可以使用selenium进行截图，使用python自带的pytesseract库进行识别，但是比较慢最直接的方法是找到加密的方法进行逆向推理。问题 Q4：用Python匹配HTML tag的时候，和有什么区别？可用的回答：术语叫贪婪匹配( )和非贪婪匹配( )问题 Q5：在Python中切片是什么？可用的回答：从序列类型（如列表，元组，字符串等）中选择一系列项目的机制称为切片。问题 Q6：谷歌的无头浏览器？可用的回答：无头浏览器即headless browser，是一种没有界面的浏览器。既然是浏览器那么浏览器该有的东西它都应该有，只是看不到界面而已。 Python中selenium模块中的PhantomJS即为无界面浏览器（无头浏览器）:是基于QtWebkit的无头浏览器。问题 Q7：Python中的反向索引是什么？可用的回答：Python序列可以是正数和负数的索引。对于正索引，0是第一个索引，1是第二个索引，依此类推。对于负索引，（ - 1）是最后一个索引，（ - 2）是倒数第二个索引，依此类推。问题 Q8：Django 和 Flask 之间有什么区别？可用的回答：Flask是一个“微框架”，主要用于具有更简单要求的小型应用程序。在Flask中，必须使用外部库。Django也可以用于更大的应用程序。它包括一个ORM。问题 Q9：谈谈你对闭包的理解？可用的回答： #闭包函数的实例 # outer是外部函数 a和b都是外函数的临时变量 def outer( a ): b = 10 # inner是内函数 def inner(): #在内函数中用到了外函数的临时变量 print(a+b) # 外函数的返回值是内函数的引用 return inner if _name_ = _main_: # 在这里我们调用外函数传入参数5 #此时外函数两个临时变量 a是5 b是10 ，并创建了内函数，然后把内函数的引用返回存给了demo # 外函数结束的时候发现内部函数将会用到自己的临时变量，这两个临时变量就不会释放，会绑定给这个内部函数demo = outer(5) # 我们调用内部函数，看一看内部函数是不是能使用外部函数的临时变量 # demo存了外函数的返回值，也就是inner函数的引用，这里相当于执行inner函数 demo() # 15 demo2 = outer(7)问题 Q10：遇到过得反爬虫策略以及解决方法?可用的回答：反爬虫策略: 1.通过headers反爬虫 2.基于用户行为的发爬虫(同一IP短时间内访问的频率,封IP) 3.动态网页反爬虫(通过ajax请求数据，或者通过JavaScript生成) 4.对部分数据进行加密处理的(数据是乱码) 解决方法： 1. 对于基本网页的抓取可以自定义headers,添加headers的数据 2. 使用多个代理ip进行抓取或者设置抓取的频率降低一些， 3. 动态网页的可以使用selenium + phantomjs 进行抓取 4. 对部分数据进行加密的，可以使用selenium进行截图，使用python自带的pytesseract库进行识别，但是比较慢最直接的方法是找到加密的方法进行逆向推理。算法题面试官常问到的一些算法题目整理如下（大概率会机考）：算题题 A1：落单的数题目描述如下：Given a non-empty array of integers, every element appears twice except for one. Find that single one.Note:Your algorithm should have a linear runtime complexity. Could you implement it without using extra memory?Example 1:Input: 2,2,1Output: 1Example 2:Input: 4,1,2,1,2Output: 4给定一个非空数组，除了一个元素外，其余均出现两次。找出它。需要在线性时间内，且不用额外空间。用到了 missing number 的思路，利用异或的性质，相同的异或会抵消掉。直接在原数组上操作，用了 i 变量，一个变量都不用要怎么写？Discuss里也没找到相关的。测试地址：https:/ Solution(object): def singleNumber(self, nums): :type nums: Listint :rtype: int for i in range(1, len(nums): numsi = numsi numsi-1 return nums-1

以下关于网络爬虫的说法,不正确的是()。

A、网络爬虫还可以对网页建立索引

B、有些网络爬虫能够从网站抓取内容聚合起来

C、有些网络爬虫甚至能发动DDos攻击、发送垃圾邮件等

D、隐藏在表单后的信息无法被网络爬虫发现

参考答案：D

()的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。

A、基于目标网页特征

B、基于领域概念

C、基于目标数据模式

D、深层网络爬虫

参考答案：C

增量式爬虫中的()指的是:爬虫根据个体网页的改变频率来重新访问各页面。

A、统一更新法

B、基于分类的更新法

C、个体更新法

D、随机更新法

参考答案：C

增量式爬虫中的()指的是:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。

A、统一更新法

B、基于分类的更新法

C、个体更新法

D、随机更新法

参考答案：B

通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口的HTTP请求。我们称这个客户端叫()。

A、数据库

B、播放器

C、用户代理

D、源服务器

参考答案：C

深圳键桥通讯技术股份有限公司3月招聘面试题81道2020313

更多 “深圳键桥通讯技术股份有限公司3月招聘面试题81道2020313” 相关考题

相关内容

最新试卷

热门试卷