此题为判断题(对,错)。
A.ROBOTSTXT_OBEY
B.ROBOTSTXT_JUDGE
C.ROBOTSTXT
D.ROBOTSTXT_IF
此题为判断题(对,错)。
此题为判断题(对,错)。
A.如果要修改静态网页,必须修改源代码
B.后缀为.htm、.html的网页是静态网页
C.静态网页文件里没有程序代码,只有HTML标记
D.静态网页可以根据用户的需要而改变
软控股份有限公司11月招聘面试题面试题面试官常问到的一些题目整理如下:问题 Q1: Tornado 的核心是什么?可用的回答 : Tornado 的核心是 ioloop 和 iostream 这两个模块, 前者提供了一个高效的 I/O 事件循环,后者则封装了 一个无阻塞的 socket 。 通过向 ioloop 中添加网络 I/O 事件,利用无阻塞的 socket, 再搭配相应的回调函数,便可达到梦寐以求的高效异步执行。 问题 Q2:如果让你来防范网站爬虫,你应该怎么来提高爬取的难度?可用的回答 : 1. 判断headers的User-Agent; 2. 检测同一个IP的访问频率; 3. 数据通过Ajax获取; 4. 爬取行为是对页面的源文件爬取,如果要爬取静态网页的html代码,可以使用jquery去模仿写html。 问题 Q3:是否使用过functools中的函数?其作用是什么?可用的回答 :python自带的 functools 模块提供了一些常用的高阶函数,也就是用于处理其它函数的特殊函数。换言之,就是能使用该模块对可调用对象进行处理。functools.cmp_to_key(func)functools.total_ordering(cls)functools.reduce(function, iterable, initializer)functools.partial(func, args, *keywords)functools.update_wrapper(wrapper, wrapped, assigned, updated)functools.wraps(wrapped, assigned, updated)问题 Q4:什么是反射?以及应用场景?可用的回答 : 通过字符串获取对象的方法称之为反射 python中可以通过如下方法实现: 1. getattr 获取属性 2. setattr 设置属性 3. hasattr 属性是否存在 4. delattr 删除属性 问题 Q5:django对数据查询结果排序怎么做,降序怎么做,查询大于某个字段怎么做?可用的回答 : 排序使用order_by() 降序需要在排序字段名前加- 查询字段大于某个值:使用filter(字段名_gt=值) 问题 Q6:列举网络爬虫所用到的网络数据包,解析包?可用的回答 : 网络数据包 urllib、urllib2、requests 解析包 re、xpath、beautiful soup、lxml 问题 Q7:如何在Flask中访问会话?可用的回答 :会话基本上允许您记住从一个请求到另一个请求的信息。在一个Flask中,它使用签名cookie,以便用户可以查看会话内容并进行修改。如果只有密钥Flask.secret_key,则用户可以修改会话。问题 Q8:一行代码实现1-100之和?可用的回答 :使用sum函数。sum(range(1, 101)问题 Q9:Post和get区别?可用的回答 : 1. 请求数据 GET请求,请求的数据会附加在URL之后,以?分割URL和传输数据,多个参数用&连接。URL的编码格式 采用的是ASCII编码,而不是uniclde,即是说所有的非ASCII字符都要编码之后再传输。 POST请求:POST请求会把请求的数据放置在HTTP请求包的包体中。上面的item=bandsaw就是实际的传输数据。 因此,GET请求的数据会暴露在地址栏中,而POST请求则不会。 2、传输数据的大小 在HTTP规范中,没有对URL的长度和传输的数据大小进行限制。但是在实际开发过程中,对于GET,特定的浏览器和服务器对URL的长度有限制。 因此,在使用GET请求时,传输数据会受到URL长度的限制。 对于POST,由于不是URL传值,理论上是不会受限制的,但是实际上各个服务器会规定对POST提交数据大小进行限制,Apache、IIS都有各自的配置。 3、安全性 POST的安全性比GET的高。这里的安全是指真正的安全,而不同于上面GET提到的安全方法中的安全, 上面提到的安全仅仅是不修改服务器的数据。比如,在进行登录操作,通过GET请求,用户名和密码都会暴露再URL上, 因为登录页面有可能被浏览器缓存以及其他人查看浏览器的历史记录的原因,此时的用户名和密码就很容易被他人拿到了。 除此之外,GET请求提交的数据还可能会造成Cross-site requestfrogery攻击。 问题 Q10:如何跨模块共享全局变量?可用的回答 :要在单个程序中跨模块共享全局变量,请创建一个特殊模块。在应用程序的所有模块中导入配置模块。该模块将作为跨模块的全局变量提供。算法题面试官常问到的一些算法题目整理如下(大概率会机考):算题题 A1:寻找极值题目描述如下:A peak element is an element that is greater than its neighbors.Given an input array nums, where numsi numsi+1, find a peak element and return its index.The array may contain multiple peaks, in that case return the index to any one of the peaks is fine.You may imagine that nums-1 = numsn = -.Example 1:Input: nums = 1,2,3,1Output: 2Explanation: 3 is a peak element and your function should return the index number 2.Example 2:Input: nums = 1,2,1,3,5,6,4Output: 1 or 5 Explanation: Your function can return either index number 1 where the peak element is 2, or index number 5 where the peak element is 6.Note:Your solution should be in logarithmic complexity.log n待续。先O(n)。看来测试数据不多,O(n) 的可以 beat 100%.测试地址:https:/
A、深度优先策略
B、广度优先策略
C、PageRank优先策略
D、随机爬行策略
A、Crawler
B、Jsoup
C、Hertrix
D、Nutch
A、License.txt
B、robots.txt
C、ReadMe.txt
D、hentrix.txt
A、Mirror
B、KW3
C、ARC
D、TXT
A、Logs
B、Jobs
C、Reports
D、Setup