广州市品高软件股份有限公司8月招聘面试题87道202088

robots.txt文件放在哪里（）

A、网站根目录下
B、网站子栏目下
C、网站内容页面
D、网站图片文件

正确答案:A

对于ROBOTS文件作用，哪些描述是正确（）

A、防止网站非公开部份的网页被抓取
B、禁止搜索引擎访问某些文件
C、提升网站排名
D、避免收录重复内容

正确答案:A,B,D

在为禁止搜索引擎抓取网页设计的Robots.txt文件中，哪些指令标示禁止抓取（）

A、Allow
B、Disallow
C、nofollow
D、noindex

正确答案:B

通过（）的查询功能，用户可以方便、快捷地在网站上找到所需要的产品及服务方面的信息。

A、搜索引擎
B、数据库
C、网站
D、页面上

正确答案:A

写出一段只允许百度抓取网站内容的robots

正确答案: User-agent：BadBot
Disallow：/

广州市品高软件股份有限公司8月招聘面试题面试题面试官常问到的一些题目整理如下：问题 Q1：Python中的命名空间是什么？可用的回答：在Python中，引入的每个名称都有一个存在的地方，可以被连接起来。这称为命名空间。它就像一个框，其中变量名称映射到放置的对象。每当搜索到变量时，将搜索此框以获取相应的对象。问题 Q2：说说什么是爬虫协议？可用的回答： Robots协议（也称为爬虫协议、爬虫规则、机器人协议等）也就是robots.txt，网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。 Robots协议是网站国际互联网界通行的道德规范，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令，故需要搜索引擎自觉遵守。问题 Q3：什么是Python中的单元测试？可用的回答：它支持共享设置，自动化测试，测试关闭代码，将测试聚合到集合等。包括unittest，pytest等框架问题 Q4：数据库的优化？可用的回答： 1. 优化索引、SQL 语句、分析慢查询； 2. 设计表的时候严格根据数据库的设计范式来设计数据库； 3. 使用缓存，把经常访问到的数据而且不需要经常变化的数据放在缓存中，能节约磁盘IO； 4. 优化硬件；采用SSD，使用磁盘队列技术(RAID0,RAID1,RDID5)等； 5. 采用MySQL 内部自带的表分区技术，把数据分层不同的文件，能够提高磁盘的读取效率； 6. 垂直分表；把一些不经常读的数据放在一张表里，节约磁盘I/O； 7. 主从分离读写；采用主从复制把数据库的读操作和写入操作分离开来； 8. 分库分表分机器（数据量特别大），主要的的原理就是数据路由； 9. 选择合适的表引擎，参数上的优化； 10. 进行架构级别的缓存，静态化和分布式； 11. 不采用全文索引； 12. 采用更快的存储方式，例如 NoSQL存储经常访问的数据问题 Q5：什么是反射？以及应用场景？可用的回答：通过字符串获取对象的方法称之为反射 python中可以通过如下方法实现： 1. getattr 获取属性 2. setattr 设置属性 3. hasattr 属性是否存在 4. delattr 删除属性问题 Q6：什么是猴子补丁？可用的回答：在运行时动态修改类和模块问题 Q7：常见的HTTP方法有哪些？可用的回答： GET：请求指定的页面信息，返回实体主体； HEAD:类似于get请求，只不过返回的响应中没有具体的内容，用于捕获报头； POST：向指定资源提交数据进行处理请求(比如表单提交或者上传文件)，。数据被包含在请求体中。 PUT:从客户端向服务端传送数据取代指定的文档的内容； DELETE：请求删除指定的页面； CONNNECT：HTTP1.1协议中预留给能够将连接方式改为管道方式的代理服务器； OPTIONS:允许客户端查看服务器的性能； TRACE：回显服务器的请求，主要用于测试或者诊断。问题 Q8：有哪些工具可以帮助查找错误或执行静态分析？可用的回答： PyChecker是一个静态分析工具，可以检测Python源代码中的错误，并警告错误的风格和复杂性。 Pylint是另一种验证模块是否符合编码标准的工具。 auto-pep8工具也可以进行静态代码检查问题 Q9：什么是Python中的单元测试？可用的回答：它支持共享设置，自动化测试，测试关闭代码，将测试聚合到集合等。包括unittest，pytest等框架问题 Q10：分布式爬虫主要解决什么问题？可用的回答：面对海量待抓取网页，只有采用分布式架构，才有可能在较短时间内完成一轮抓取工作。它的开发效率是比较快而且简单的。算法题面试官常问到的一些算法题目整理如下（大概率会机考）：算题题 A1：洗牌题目描述如下：Shuffle a set of numbers without duplicates.Example:/ Init an array with set 1, 2, and 3.int nums = 1,2,3;Solution solution = new Solution(nums);/ Shuffle the array 1,2,3 and return its result. Any permutation of 1,2,3 must equally likely to be returned.solution.shuffle();/ Resets the array back to its original configuration 1,2,3.solution.reset();/ Returns the random shuffling of array 1,2,3.solution.shuffle();将一个数组洗牌。直接用 random.sample 即可。sample 中的算法直接用了 set() 以及无限从数组下标中选择然后判断是否在set中.有点无脑。在后面的例子中看到一种非常有趣的：sorted 可以指定key，把这个key指定为 random.random()即可。测试地址：https:/ beat 30% 左右。用 sample 完全取决于运气，因为底层的源码就是取决于运气的.可做参考的解答如下：class Solution(object): def _init_(self, nums): :type nums: Listint self.nums = nums def reset(self): Resets the array to its original configuration and return it. :rtype: Listint return self.nums def shuffle(self): Returns a random shuffling of the array. :rtype: Listint return random.sample(self.nums, len(self.nums)

Robots.txt有什么作用（）

A、使搜索引擎不能访问网站
B、使百度不能访问网站
C、使google不能访问网站
D、控制搜索引擎访问网站

正确答案:D

robots.txt的作用是（）。

A、禁止搜索引擎蜘蛛抓取特定URL
B、给搜索引擎蜘蛛提供网站地图文件
C、以上都对

正确答案:C

关于搜索引擎工作原理，下列描述中正确的一项是（）

A、搜索引擎的基本工作原理包括抓取、索引、排序
B、搜索引擎抓取只抓取大中型网站
C、搜索引擎对任何链接都可以抓取
D、搜索引擎定时定量抓取小型网站内容

正确答案:A

网站被惩罚了怎么办？（）

A、检查robots.txt文件是否禁止了搜索引擎收录
B、检查网站是否采用301跳转之外的其他转向
C、检查网站是否过度优化
D、检查外链和导出链接

正确答案:A,B,C,D

如何建立符合搜索抓取习惯的网站？（）

A、网站层次结构明了，并尽量保证spider的可读性
B、url尽量短且易读使得用户能够快速理解
C、建立网站sitemap文件，前及时通过百度站长平台提交
D、robots文件是封禁搜索引擎抓取，所以此Robots文件尽量少用

正确答案:A,B,C

广州市品高软件股份有限公司8月招聘面试题87道202088

更多 “广州市品高软件股份有限公司8月招聘面试题87道202088” 相关考题

相关内容

最新试卷

热门试卷