Python 爬虫面试题阅读指南(必看)
大家好,我是帅地。 为了方便大家复习,这些面试题的展示采取了右边面试题目,左边答案的方式,方便大家按需查看。 由于手机端不支持这种展示方式,当然,为了手机方便阅读,下面会贴出所有面试题答案链接,不过大家最好在 PC 电脑端阅读哈,相关面试题还会持续更新,尽量补充完善起来,建议收藏帅地的网站哦。
面试题链接汇总
常见问题
2. 你用过的爬虫框架或者模块有哪些?谈谈他们的区别或者优缺点?
5. 需要登录的网页,如何解决同时限制 ip,cookie,session(其中有一些是动态生成的)在不使用动态爬取的情况下?
7. 使用最多的数据库(Mysql,Mongodb,redis 等),对他们的理解?
10. 爬的那些内容数据量有多大,多久爬一次,爬下来的数据是怎么存储?
13. 谈一谈你对 Selenium 和 PhantomJS 了解?
16. 为什么 requests 请求需要带上 header?
17. dumps,loads 与 dump,load 的区别?
19. IP 存放在哪里?怎么维护 IP?对于封了多个 ip 的,怎么判定 IP 没被封?
21. 假如每天爬取量在 5、6 万条数据,一般开几个线程,每个线程 ip 需要加锁限定吗?
框架
26. 爬虫向数据库存数据开始和结束都会发一条消息,是 scrapy 哪个模块实现的?
29. 什么是 scrapy-redis 中的指纹?是如何去重的?