阅读 44

爬虫Scrapy框架-初学

安装:   python -m pip install Scrapy

创建项目:python -m scrapy startproject xxx   (不知道为什么必要加python -m  待解决)

进入项目:cd xxx     #进入某个文件夹下

创建爬虫:python -m scrapy genspider xxx(爬虫名) xxx.com (爬取域)

# 注意:这个域名是可以随便写的[但是必须要写 ],等爬虫文件生成之后再进相应的爬虫文件改为我们所需的即可! 

 

/*  其他
生成文件:scrapy crawl xxx -o xxx.json (生成某种类型的文件)
运行爬虫:scrapy crawl XXX
列出所有爬虫:scrapy list
获得配置信息:scrapy settings [options]
*/
 
 
pycharm打开项目
 
 
测试的print函数没有显示   解决办法:  在配置文件settings. py中找到

# Obey robots.txt rules
ROBOTSTXT_OBEY = True   → 改成 False

 

自定义项目启动文件(不用cmd,还可以通过debug此py文件达到调试此scrapy框架的作用):

1.在项目文件夹下创建名为main.py或者manage.py的py文件:

2.在此py文件下编写代码如下:

from scrapy.cmdline import execute
import sys
import os

# 保证终端执行 "scrapy", "crawl", "Spider.name" 这个命令运行不出现路径问题!(可以不写!)
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "Spider.name"])


 

原文:https://www.cnblogs.com/Rohmi/p/15354722.html

文章分类
百科问答
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐