首页
博客
源码
资源
博客
源码
写文章
发布博客
发布资源
登录
X
爬虫
相关资讯
热门
最新
代码人生
01-01 08:00
代码人生
爬虫 - Selenium与PhantomJS
爬虫 - Selenium与PhantomJS,1.SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截
91
代码人生
01-01 08:00
代码人生
爬虫学习 - requests进阶
爬虫学习 - requests进阶,模拟浏览器登录=>处理cookieheaders为HTTP协议中的请求头,一般存放一些和请求内容无关的数据,有时也会存放一些安全验证信息,比如常见的User-Agent,token,cookieCookieCookie的定义Cookie是由服务器发给客户端的特殊信息,而这些信息以文本文件的方式存放在客户端,然后客户端每次向服务器发送请求的时候都会带上这些特殊的信
232
代码人生
01-01 08:00
代码人生
爬虫 - 数据提取-XPath(爬虫程序从网上爬取数据的步骤)
爬虫 - 数据提取-XPath(爬虫程序从网上爬取数据的步骤),1.介绍之前BeautifulSoup的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如lxml,使用的是Xpath语法,同样是效率比较高的解析方法。如果大家对BeautifulSoup使用不太习惯的话,可以尝试下Xpath官网lxml.de/index.htmlw3cwww.w3school.com.cn/xpat
159
代码人生
01-01 08:00
代码人生
爬虫逆向基础,认识 SM1-SM9、ZUC 国密算法
爬虫逆向基础,认识 SM1-SM9、ZUC 国密算法,【01x00】简介国密即国家密码局认定的国产加密算法,爬虫工程师在做JS逆向的时候,会遇到各种各样的加密算法,其中RSA、AES、SHA等算法是最常见的,这些算法都是国外的,在K哥以前的文章里也有介绍:《【爬虫知识】爬虫常见加密解密算法》事实上从2010年开始,我国国家密码管理局就已经开始陆续发布了一系列国产加密算法,这其中就包括SM1、SM2
64
代码人生
01-01 08:00
代码人生
爬虫 - Cookie 介绍 和 request使用
爬虫 - Cookie 介绍 和 request使用,Cookie介绍1.Cookie为什么要使用Cookie呢?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。1
84
后端
01-01 08:00
后端
爬虫识别验证码操作
爬虫识别验证码操作,????拓展一:验证码的处理!我们在登录注册时频繁发送请求,服务器弹出图片验证码进行验证!不过现在大多网站哪怕你第一次发送请求,它也蹦出图片验证码要求你验证!????(1)处理方案:手动输入,但仅限于登录一次,无法持续;图片识别引擎,使用光学识别引擎处理图片中的数据,目前常用于图片数据提取,较少用于验证码处理;打码平台,爬虫常用解决验证码的方案。????(2)关于图片识别引擎(tesser
82
后端
01-01 08:00
后端
爬虫工程师必须掌握的 Web 网站调试与抓包分析技巧
爬虫工程师必须掌握的 Web 网站调试与抓包分析技巧,1、Chrome开发者工具GoogleChrome浏览器中内置了一套强大的开发者工具,无论是做源码分析还是JS脚本的调试都是比较方便的。要进行抓包或者调试前端的加密脚本,和控制台的交互必不可少。不少做了安全防护的网站都会禁止用户打开Chrome开发者工具,下面总结所有Chrome控制台的打开方法。按F12键。按Ctrl+Shift+I键。右击网
99
后端
01-01 08:00
后端
爬虫系列:去应用商量爬取app的评价信息
爬虫系列:去应用商量爬取app的评价信息,前言几天前,项目组的‘项目经理’,突然找我聊天,大概意思是这样的:希望我可以在任务不紧急的情况下协助运营同事做一点运营的事情,比如搞搞社群、抓取app评价、跟踪注册数据啊等等事情。测试是不是万能的???到作者这里就已经不是什么新鲜事了,公司运维兼职了、单元测试也做过了、静态代码分析扫描也做过了、自己的本身的测试技能,只差自己没开发系统了。任务和方案最先安排
262
后端
01-01 08:00
后端
爬虫框架:scrapy
爬虫框架:scrapy,一介绍Scrapy一个开源和协作的框架,其最初是为了页面抓取(更确切来说,网络抓取)所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如AmazonAssociatesWebServices)或者通用的网络爬虫。Scrapy是基于twiste
77
后端
01-01 08:00
后端
爬虫小技巧利用Mitmproxy破解app
爬虫小技巧利用Mitmproxy破解app,不同于Fiddler或Wireshark等抓包工具,mitmproxy不仅可以截获请求帮助开发者查看、分析,还可以通过自定义脚本进行二次开发mitmproxy就是用于MITM的proxy,MITM即中间人攻击(Man-in-the-middleattack)。用于中间人攻击的代理首先会向正常的代理一样转发请求,保障服务端与客户端的通信,其次会实时查、记录
75
«
1
2
3
4
»