爬虫

01-01 08:00

爬虫服务器需要什么配置（数据爬虫服务技术）

爬虫服务器需要什么配置（数据爬虫服务技术）程序开发领域有这样一句话：人生苦短，我用Python。有趣的是，很多人并非专职程序员，但却把这句话奉为神谕。所以Python究竟有什么神力，让全世界的人都追捧？我认为Python能大受欢迎，就是因为它可能是最容易学会、也最快能挣到钱的IT技能。怎样用Python技术赚钱？当初刚学Python，就有朋友来介绍我去接单做私活，我还记得是为一家公司爬数据，那一单我赚了5.5K。从那之后逐渐

86

01-01 08:00

爬虫 - Cookie 介绍和 request使用

爬虫 - Cookie 介绍和 request使用,Cookie介绍1.Cookie为什么要使用Cookie呢？Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。1

83

01-01 08:00

爬虫识别验证码操作

爬虫识别验证码操作,????拓展一：验证码的处理！我们在登录注册时频繁发送请求，服务器弹出图片验证码进行验证！不过现在大多网站哪怕你第一次发送请求，它也蹦出图片验证码要求你验证！????（1）处理方案：手动输入，但仅限于登录一次，无法持续；图片识别引擎，使用光学识别引擎处理图片中的数据，目前常用于图片数据提取，较少用于验证码处理；打码平台，爬虫常用解决验证码的方案。????（2）关于图片识别引擎（tesser

82

01-01 08:00

爬虫：HTTP请求与HTML解析（爬取某乎网站）

爬虫：HTTP请求与HTML解析（爬取某乎网站） 1. 发送web请求 1.1  requests  　　用requests库的get()方法发送get请求，常常会添加请求头"user-agent"，以及登录"cookie"等参数 1.1.1  user-agent 　　登录网站，将"user-agent"值复制到文本文件 1.1.2  cookie  

80

01-01 08:00

爬虫框架：scrapy

爬虫框架：scrapy,一介绍Scrapy一个开源和协作的框架，其最初是为了页面抓取(更确切来说,网络抓取)所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如AmazonAssociatesWebServices)或者通用的网络爬虫。Scrapy是基于twiste

77

01-01 08:00

爬虫小技巧利用Mitmproxy破解app

爬虫小技巧利用Mitmproxy破解app,不同于Fiddler或Wireshark等抓包工具，mitmproxy不仅可以截获请求帮助开发者查看、分析，还可以通过自定义脚本进行二次开发mitmproxy就是用于MITM的proxy，MITM即中间人攻击（Man-in-the-middleattack）。用于中间人攻击的代理首先会向正常的代理一样转发请求，保障服务端与客户端的通信，其次会实时查、记录

74

01-01 08:00

爬虫软件哪个好用（获取客户数据的软件推荐）

爬虫软件哪个好用（获取客户数据的软件推荐）现阶段目前市面上人们普遍使用的爬虫工具大概能够区划为两类：云网络爬虫和数据采集器（自身开发设计的爬虫工具和爬虫框架除外）。云网络爬虫就是说无需下载安装程序，在网页页面上建立网络爬虫并在网络服务器运作，网站给予网络带宽和二十四小时服务项目。数据采集器一般就是说要安装下载，随后建立网络爬虫，应用的是自身的网络带宽，受制于自身的电脑上是不是待机。对于最后应该挑选哪种爬虫工具，人们还是必须依据网络爬虫自身

64

01-01 08:00

爬虫逆向基础，认识 SM1-SM9、ZUC 国密算法

爬虫逆向基础，认识 SM1-SM9、ZUC 国密算法,【01x00】简介国密即国家密码局认定的国产加密算法，爬虫工程师在做JS逆向的时候，会遇到各种各样的加密算法，其中RSA、AES、SHA等算法是最常见的，这些算法都是国外的，在K哥以前的文章里也有介绍：《【爬虫知识】爬虫常见加密解密算法》事实上从2010年开始，我国国家密码管理局就已经开始陆续发布了一系列国产加密算法，这其中就包括SM1、SM2

63

01-01 08:00

爬虫 - Python下Tesseract Ocr引擎及安装介绍

爬虫 - Python下Tesseract Ocr引擎及安装介绍,1.Tesseract介绍tesseract是一个google支持的开源ocr项目其项目地址：github.com/tesseract-o…目前最新的源码可以在这里下载2.Tesseract安装包下载Tesseract的release版本下载地址：github.com/tesseract-o…Currently,thereisnoo

61

01-01 08:00

爬虫与Python：（一）网络爬虫概念篇——7.Session和Cookie

爬虫与Python：（一）网络爬虫概念篇——7.Session和Cookie 什么是Session和Cookie? Session和Cookie是用户保持HTTP连接状态的技术。在网页或APP等应用中基本都会使用到。在写爬虫的时候，也经常会涉及需要携带Cookie应对一般的反爬，接下来会对Session和Cookie的基本原理做简要讲解。 Session的基本原理 Session代表服务器与浏览器的遗产会话过程，这个过

60

«
1
2
3
4
»