Scrapy中如何向Spider传入参数的方法实现

站长资源 2024/12/25 佚名

2 0 1

在使用Scrapy爬取数据时，有时会碰到需要根据传递给Spider的参数来决定爬取哪些Url或者爬取哪些页的情况。

例如，百度贴吧的放置奇兵吧的地址如下，其中 kw参数用来指定贴吧名称、pn参数用来对帖子进行翻页。

https://tieba.baidu.com/f"color: #ff0000">方式一


通过 scrapy crawl 命令的 -a 参数向 spider 传递参数。


# -*- coding: utf-8 -*-
import scrapy

class TiebaSpider(scrapy.Spider):
  name = 'tieba' # 贴吧爬虫
  allowed_domains = ['tieba.baidu.com'] # 允许爬取的范围
  start_urls = [] # 爬虫起始地址

  # 命令格式： scrapy crawl tieba -a tiebaName=放置奇兵 -a pn=250
  def __init__(self, tiebaName=None, pn=None, *args, **kwargs):
    print('< 贴吧名称 >： ' + tiebaName)
    super(eval(self.__class__.__name__), self).__init__(*args, **kwargs)
    self.start_urls = ['https://tieba.baidu.com/f"color: #ff0000">方式二
仿照 scrapy 的 crawl 命令的源代码，重新自定义一个专用命令。

settings.py
首先，需要在settings.py文件中增加如下配置来指定自定义 scrapy 命令的存放目录。


# 指定 Scrapy 命令存放目录
COMMANDS_MODULE = 'baidu_tieba.commands'


run.py
在指定的命令存放目录中创建命令文件，在这里我们创建的命令文件为 run.py ，将来执行的命令格式为：

scrapy run [ -option option_value] 。


import scrapy.commands.crawl as crawl
from scrapy.exceptions import UsageError
from scrapy.commands import ScrapyCommand


class Command(crawl.Command):

  def add_options(self, parser):
    # 为命令添加选项
    ScrapyCommand.add_options(self, parser)
    parser.add_option("-k", "--keyword", type="str", dest="keyword", default="",
             help="set the tieba's name you want to crawl")
    parser.add_option("-p", "--pageNum", type="int", action="store", dest="pageNum", default=0,
             help="set the page number you want to crawl")

  def process_options(self, args, opts):
    # 处理从命令行中传入的选项参数
    ScrapyCommand.process_options(self, args, opts)
    if opts.keyword:
      tiebaName = opts.keyword.strip()
      if tiebaName != '':
        self.settings.set('TIEBA_NAME', tiebaName, priority='cmdline')
    else:
      raise UsageError("U must specify the tieba's name to crawl,use -kw TIEBA_NAME!")
    self.settings.set('PAGE_NUM', opts.pageNum, priority='cmdline')

  def run(self, args, opts):
    # 启动爬虫
    self.crawler_process.crawl('tieba')
    self.crawler_process.start()



pipelines.py
在BaiduTiebaPipeline的open_spider()方法中利用 run 命令传入的参数对TiebaSpider进行初始化，在这里示例设置了一下start_urls。


# -*- coding: utf-8 -*-
import json

class BaiduTiebaPipeline(object):

  @classmethod
  def from_settings(cls, settings):
    return cls(settings)

  def __init__(self, settings):
    self.settings = settings

  def open_spider(self, spider):
    # 开启爬虫
    spider.start_urls = [
      'https://tieba.baidu.com/f"htmlcode">

ITEM_PIPELINES = {
  'baidu_tieba.pipelines.BaiduTiebaPipeline': 50,
}


启动示例
大功告成，参照如下命令格式启动贴吧爬虫。 


scrapy run -k 放置奇兵 -p 250



参考文章：
https://blog.csdn.net/c0411034/article/details/81750028 
https://blog.csdn.net/qq_24760381/article/details/80361400 
https://blog.csdn.net/qq_38282706/article/details/80991196 

                                
                                
                                    Scrapy,Spider传入参数,Scrapy,Spider,参数


                        
                            
                                广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）

                                免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！
                            
                        
                        
                            
                                
                                    上一篇
                                    python在CMD界面读取excel所有数据的示例
                                
                            
                            
                                
                                    下一篇
                                    python调用摄像头的示例代码
                                
                            
                        
                        
                        
                            
                                
                                
                                    评论“Scrapy中如何向Spider传入参数的方法实现”
                                
                            
                            
                                
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                                    
                                                
                                                
                                                    
                                                    
                                                    
                                                
                                                
                                                     再想想
                                                    
                                                    
                                                    
                                                    
                                                    
                                                
                                            
                                            
                                        
                                    
                                    
                                    
                                        暂无评论...


                    
                        
                            
                                
                                    
                                        
                                    
                                    
                                        
                                            
                                        
                                    
                                
                                
                                    www.wwsws.com
                                            
                                                伏龙阁资源网 
                                    
                                    
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                    
                                    
                                    
                                        
                                            39,976影音资源
                                        
                                        
                                            44,792技术资源
                                        
                                        
                                            21,817软件资源
                                        
                                        
                                            651,128站长资源
                                        
                                    
                                
                            
                            
                                最新文章
                                
                                    
                                         
                                       
                                            
                                                
                                            
                                            
                                                
                                                    转载一个别人收藏的精典网站Ruby,HIBERNATE
                                                
                                                
                                                    
                                                        2024/12/25
                                                        
                                                         56
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    可与Spreadsheets媲美的在线表格系统:EditG
                                                
                                                
                                                    
                                                        2024/12/25
                                                        
                                                         34
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    cygwin使用心得
                                                
                                                
                                                    
                                                        2024/12/25
                                                        
                                                         73
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    脚本的DVD开发
                                                
                                                
                                                    
                                                        2024/12/25
                                                        
                                                         28
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    局域网设置自动配置脚本文件的写法与用途
                                                
                                                
                                                    
                                                        2024/12/25
                                                        
                                                         15


            
            
                
                    
                        
                            更新日志
                        
                        
                            
                                
                                    2024年12月25日
                                
                                                    
                        
 
                            群星《奔赴！万人现场 第2期》[FLAC/分轨][518.87MB]
 
                            群星《奇妙浪一夏 (上海迪士尼度假区音乐)》[320K/MP3][43.91MB]
 
                            群星《奇妙浪一夏 (上海迪士尼度假区音乐)》[FLAC/分轨][140.49MB]
 
                            【古典音乐】詹姆斯·高威《季节》1993[WAV+CUE]
 
                            贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]

                        
                    
                    
                        2024年12月25日
                    
                    
                        
 
                            小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
 
                            群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
 
                            群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
 
                            雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
 
                            群星《2024好听新歌42》AI调整音效【WAV分轨】
 
                            王思雨-《思念陪着鸿雁飞》WAV
 
                            王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
 
                            李健《无时无刻》[WAV+CUE][590M]
 
                            陈奕迅《酝酿》[WAV分轨][502M]
 
                            卓依婷《化蝶》2CD[WAV+CUE][1.1G]
 
                            群星《吉他王(黑胶CD)》[WAV+CUE]
 
                            齐秦《穿乐(穿越)》[WAV+CUE]
 
                            发烧珍品《数位CD音响测试-动向效果（九）》【WAV+CUE】
 
                            邝美云《邝美云精装歌集》[DSF][1.6G]
 
                            吕方《爱一回伤一回》[WAV+CUE][454M]

                        
                    
                            
                        
                    
                
            
            
                
                    友情链接 
                
                    
                        杰晶网络
                        DDR爱好者之家
                        桃源资源网
                        杰网资源
                        富贵资源网
                        南强小屋
                        铁雪资源网
                        幽灵资源网
                        万梅资源网
                        狼山资源网
                        白云岛资源网
                        昆仑资源网
                        相思资源网
                        明霞山资源网
                        内蒙古资源网
                        黑松山资源网
                        茶园资源网
                        饿虎岗资源网
                        大旗谷资源网
                        常春岛资源网
                        岱庙资源网
                        兴国资源网
                        快活林资源网
                        蝙蝠岛资源网
                        帝王谷资源网
                        白云城资源网
                        伏龙阁资源网
                        清风细雨楼
                        天枫庄资源网
                        圆月山庄资源网
                        无争山庄资源网
                        神水资源网
                        移花宫资源网
                        神剑山庄资源网
                        无为清净楼资源网
                        金钱帮资源网
                        丐帮资源网
                        华山资源网
                        极乐门资源网
                        小李飞刀资源网
                        凤求凰客栈
                        风云阁资源网
                        金狮镖局
                        鸳鸯亭资源网
                        千金楼资源网
                        更多链接
                    
                
            
            
                
                    
                        
                    
                    
                        
                    
                
                
                    
                        Copyright © 2006~2023
                        伏龙阁资源网   Design by www.wwsws.com  手机版