爬虫

01-01 08:00

爬虫 - Selenium与PhantomJS

爬虫 - Selenium与PhantomJS,1.SeleniumSelenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。Selenium可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截

91

01-01 08:00

爬虫学习 - requests进阶

爬虫学习 - requests进阶,模拟浏览器登录=>处理cookieheaders为HTTP协议中的请求头，一般存放一些和请求内容无关的数据，有时也会存放一些安全验证信息，比如常见的User-Agent,token,cookieCookieCookie的定义Cookie是由服务器发给客户端的特殊信息，而这些信息以文本文件的方式存放在客户端，然后客户端每次向服务器发送请求的时候都会带上这些特殊的信

232

01-01 08:00

爬虫 - 数据提取-XPath(爬虫程序从网上爬取数据的步骤)

爬虫 - 数据提取-XPath(爬虫程序从网上爬取数据的步骤),1.介绍之前BeautifulSoup的用法，这个已经是非常强大的库了，不过还有一些比较流行的解析库，例如lxml，使用的是Xpath语法，同样是效率比较高的解析方法。如果大家对BeautifulSoup使用不太习惯的话，可以尝试下Xpath官网lxml.de/index.htmlw3cwww.w3school.com.cn/xpat

159

01-01 08:00

爬虫逆向基础，认识 SM1-SM9、ZUC 国密算法

爬虫逆向基础，认识 SM1-SM9、ZUC 国密算法,【01x00】简介国密即国家密码局认定的国产加密算法，爬虫工程师在做JS逆向的时候，会遇到各种各样的加密算法，其中RSA、AES、SHA等算法是最常见的，这些算法都是国外的，在K哥以前的文章里也有介绍：《【爬虫知识】爬虫常见加密解密算法》事实上从2010年开始，我国国家密码管理局就已经开始陆续发布了一系列国产加密算法，这其中就包括SM1、SM2

64

01-01 08:00

爬虫 - Cookie 介绍和 request使用

爬虫 - Cookie 介绍和 request使用,Cookie介绍1.Cookie为什么要使用Cookie呢？Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。1

84

01-01 08:00

爬虫识别验证码操作

爬虫识别验证码操作,????拓展一：验证码的处理！我们在登录注册时频繁发送请求，服务器弹出图片验证码进行验证！不过现在大多网站哪怕你第一次发送请求，它也蹦出图片验证码要求你验证！????（1）处理方案：手动输入，但仅限于登录一次，无法持续；图片识别引擎，使用光学识别引擎处理图片中的数据，目前常用于图片数据提取，较少用于验证码处理；打码平台，爬虫常用解决验证码的方案。????（2）关于图片识别引擎（tesser

82

01-01 08:00

爬虫工程师必须掌握的 Web 网站调试与抓包分析技巧

爬虫工程师必须掌握的 Web 网站调试与抓包分析技巧,1、Chrome开发者工具GoogleChrome浏览器中内置了一套强大的开发者工具，无论是做源码分析还是JS脚本的调试都是比较方便的。要进行抓包或者调试前端的加密脚本，和控制台的交互必不可少。不少做了安全防护的网站都会禁止用户打开Chrome开发者工具，下面总结所有Chrome控制台的打开方法。按F12键。按Ctrl+Shift+I键。右击网

99

01-01 08:00

爬虫系列：去应用商量爬取app的评价信息

爬虫系列：去应用商量爬取app的评价信息,前言几天前，项目组的‘项目经理’，突然找我聊天，大概意思是这样的：希望我可以在任务不紧急的情况下协助运营同事做一点运营的事情，比如搞搞社群、抓取app评价、跟踪注册数据啊等等事情。测试是不是万能的???到作者这里就已经不是什么新鲜事了，公司运维兼职了、单元测试也做过了、静态代码分析扫描也做过了、自己的本身的测试技能，只差自己没开发系统了。任务和方案最先安排

262

01-01 08:00

爬虫框架：scrapy

爬虫框架：scrapy,一介绍Scrapy一个开源和协作的框架，其最初是为了页面抓取(更确切来说,网络抓取)所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如AmazonAssociatesWebServices)或者通用的网络爬虫。Scrapy是基于twiste

77

01-01 08:00

爬虫小技巧利用Mitmproxy破解app

爬虫小技巧利用Mitmproxy破解app,不同于Fiddler或Wireshark等抓包工具，mitmproxy不仅可以截获请求帮助开发者查看、分析，还可以通过自定义脚本进行二次开发mitmproxy就是用于MITM的proxy，MITM即中间人攻击（Man-in-the-middleattack）。用于中间人攻击的代理首先会向正常的代理一样转发请求，保障服务端与客户端的通信，其次会实时查、记录

75

«
1
2
3
4
»