北京华力创通科技股份有限公司9月招聘面试题67道2020922

robots.txt文件放在哪里（）

A、网站根目录下
B、网站子栏目下
C、网站内容页面
D、网站图片文件

正确答案:A

对于ROBOTS文件作用，哪些描述是正确（）

A、防止网站非公开部份的网页被抓取
B、禁止搜索引擎访问某些文件
C、提升网站排名
D、避免收录重复内容

正确答案:A,B,D

在为禁止搜索引擎抓取网页设计的Robots.txt文件中，哪些指令标示禁止抓取（）

A、Allow
B、Disallow
C、nofollow
D、noindex

正确答案:B

通过（）的查询功能，用户可以方便、快捷地在网站上找到所需要的产品及服务方面的信息。

A、搜索引擎
B、数据库
C、网站
D、页面上

正确答案:A

Robots.txt有什么作用（）

A、使搜索引擎不能访问网站
B、使百度不能访问网站
C、使google不能访问网站
D、控制搜索引擎访问网站

正确答案:D

北京华力创通科技股份有限公司9月招聘面试题面试题面试官常问到的一些题目整理如下：问题 Q1：Python中的self是什么？可用的回答：self是类的实例或对象。在Python中，self包含在第一个参数中。init方法中的self变量引用新创建的对象，而在其他方法中，它引用其方法被调用的对象。问题 Q2：说说什么是爬虫协议？可用的回答： Robots协议（也称为爬虫协议、爬虫规则、机器人协议等）也就是robots.txt，网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。 Robots协议是网站国际互联网界通行的道德规范，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令，故需要搜索引擎自觉遵守。问题 Q3：描述一下scrapy框架的运行机制？可用的回答：从start_urls里面获取第一批url发送请求，请求由请求引擎给调度器入请求对列，获取完毕后，调度器将请求对列交给下载器去获取请求对应的响应资源，并将响应交给自己编写的解析方法做提取处理，如果提取出需要的数据，则交给管道处理，如果提取出url，则继续执行之前的步骤，直到多列里没有请求，程序结束。问题 Q4：大数据的文件读取？可用的回答： 1. 利用生成器generator 2. 迭代器进行迭代遍历：for line in file 问题 Q5：Python里面match()和search()的区别？可用的回答：re模块中match(pattern,string,flags),检查string的开头是否与pattern匹配。re模块中research(pattern,string,flags),在string搜索pattern的第一个匹配值。问题 Q6：描述一下scrapy框架的运行机制？可用的回答：从start_urls里面获取第一批url发送请求，请求由请求引擎给调度器入请求对列，获取完毕后，调度器将请求对列交给下载器去获取请求对应的响应资源，并将响应交给自己编写的解析方法做提取处理，如果提取出需要的数据，则交给管道处理，如果提取出url，则继续执行之前的步骤，直到多列里没有请求，程序结束。问题 Q7：写爬虫使用多进程好，还是用多线程好？可用的回答： IO密集型代码(文件处理、网络爬虫等)，多线程能够有效提升效率(单线程下有IO操作会进行IO等待，造成不必要的时间浪费，而开启多线程能在线程A等待时，自动切换到线程B，可以不浪费CPU的资源，从而能提升程序执行效率)。在实际的数据采集过程中，既考虑网速和响应的问题，也需要考虑自身机器的硬件情况，来设置多进程或多线程问题 Q8：Python里面match()和search()的区别？可用的回答：re模块中match(pattern,string,flags),检查string的开头是否与pattern匹配。re模块中research(pattern,string,flags),在string搜索pattern的第一个匹配值。问题 Q9：常见的HTTP状态码有哪些？可用的回答： 200 OK 301 Moved Permanently 302 Found 304 Not Modified 307 Temporary Redirect 400 Bad Request 401 Unauthorized 403 Forbidden 404 Not Found 410 Gone 500 Internal Server Error 501 Not Implemented 问题 Q10：什么是猴子补丁？可用的回答：在运行时动态修改类和模块算法题面试官常问到的一些算法题目整理如下（大概率会机考）：算题题 A1：丢失的数字题目描述如下：Given an array containing n distinct numbers taken from 0, 1, 2, ., n, find the one that is missing from the array.Example 1:Input: 3,0,1Output: 2Example 2:Input: 9,6,4,2,3,5,7,0,1Output: 8Note:Your algorithm should run in linear runtime complexity. Could you implement it using only constant extra space complexity?给出从 0 - n的数，找出其中缺少的那个。思路：一开始的思路只有 set . set(n+1)，set(nums)，然后取差集。这种方法固然可以通过测试，不过题目要求使用常数空间也就是 O(1)。后来经过 Discuss 区里的点拨，发现几种有趣的方法：1. 使用异或。两个相同的数会相互抵消掉。也就是说，从0-n异或一遍。然后在用这个数把nums里的给异或一遍。好了剩下的就是那个缺少的了。2. 使用和。思路与异或有异曲同工之妙，0-n加一遍。然后在减去，剩下的也是。运用数学方法，很妙。测试地址：https:/ 88% 28ms.可做参考的解答如下：class Solution(object): def missingNumber(self, nums): :type nums: Listint :rtype: int # x = list(set(range(max(nums)+1) - set(nums) # if x: # return x.pop() # else: # return max(nums)+1 all_nums = sum(range(len(nums)+1) for i in nums: all_nums -= i return all_nums算题题 A1：直方图中最大的矩形算题题 A1：二叉树中最小公共祖先题目描述如下：Given a binary tree, find the lowest common ancestor (LCA) of two given nodes in the tree.According to the definition of LCA on Wikipedia: “The lowest common ancestor is defined between two nodes p and q as the lo

robots.txt的作用是（）。

A、禁止搜索引擎蜘蛛抓取特定URL
B、给搜索引擎蜘蛛提供网站地图文件
C、以上都对

正确答案:C

关于搜索引擎工作原理，下列描述中正确的一项是（）

A、搜索引擎的基本工作原理包括抓取、索引、排序
B、搜索引擎抓取只抓取大中型网站
C、搜索引擎对任何链接都可以抓取
D、搜索引擎定时定量抓取小型网站内容

正确答案:A

网站被惩罚了怎么办？（）

A、检查robots.txt文件是否禁止了搜索引擎收录
B、检查网站是否采用301跳转之外的其他转向
C、检查网站是否过度优化
D、检查外链和导出链接

正确答案:A,B,C,D

如何建立符合搜索抓取习惯的网站？（）

A、网站层次结构明了，并尽量保证spider的可读性
B、url尽量短且易读使得用户能够快速理解
C、建立网站sitemap文件，前及时通过百度站长平台提交
D、robots文件是封禁搜索引擎抓取，所以此Robots文件尽量少用

正确答案:A,B,C

以下哪种网站体系问题不利于搜索引擎蜘蛛抓取网站（）

A、缺乏robots.txt文件
B、使用框架结构
C、动态URL（超过两个变量）
D、购买链接
E、要求填写提交表单的页面

正确答案:B,C,E

北京华力创通科技股份有限公司9月招聘面试题67道2020922

更多 “北京华力创通科技股份有限公司9月招聘面试题67道2020922” 相关考题

相关内容

最新试卷

热门试卷