06-22 12:51 阅读 44

爬虫Scrapy框架-初学

安装： python -m pip install Scrapy

创建项目：python -m scrapy startproject xxx （不知道为什么必要加python -m 待解决）

进入项目：cd xxx #进入某个文件夹下

创建爬虫：python -m scrapy genspider xxx（爬虫名） xxx.com （爬取域）

# 注意:这个域名是可以随便写的[但是必须要写 ]，等爬虫文件生成之后再进相应的爬虫文件改为我们所需的即可!

/* 其他

生成文件：scrapy crawl xxx -o xxx.json (生成某种类型的文件)

运行爬虫：scrapy crawl XXX
列出所有爬虫：scrapy list
获得配置信息：scrapy settings [options]

*/

pycharm打开项目

测试的print函数没有显示解决办法：在配置文件settings. py中找到

# Obey robots.txt rules
ROBOTSTXT_OBEY = True → 改成 False

自定义项目启动文件（不用cmd，还可以通过debug此py文件达到调试此scrapy框架的作用）：

1.在项目文件夹下创建名为main.py或者manage.py的py文件：

2.在此py文件下编写代码如下：

from scrapy.cmdline import execute
import sys
import os

# 保证终端执行 "scrapy", "crawl", "Spider.name" 这个命令运行不出现路径问题！（可以不写！）
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "Spider.name"])

原文：https://www.cnblogs.com/Rohmi/p/15354722.html

推荐资源

马士兵教育java架构师视频完整版课程分享新版本Python数据分析与大数据极速入门课程快速掌握Python数据分析要点+全程作业分析 30套互联网营销黑科技落地实战，让你收钱效率倍增10倍，批量引流，快速变现基于Node.js平台的下一代Web开发框架– Koa2框架 Koa2搭建网站的完美实战课程操作简单可复制,一个月收益1W+的正规淘宝虚拟项目中视频自媒体训练课：可原创拍摄，可二次剪辑，有播放量就有钱 2022抖音直播起号，基础训练+直播玩法分享！最火的分布式流数据处理框架：Apache Storm培训课程 20集视频轻松带你入门Storm 拼多多新人打造爆款创业课：快速引流持续出单，适用于所有新人 2021生财有术第五期亦仁知识星球2021全套课程【价值2465元】5月最新

相关推荐