python正则爬取某段子网站前20页段子(request库)过程解析

站长资源 2024/11/25 佚名

2 0 1

首先还是谷歌浏览器抓包对该网站数据进行分析，结果如下：

该网站地址：http://www.budejie.com/text

该网站数据都是通过html页面进行展示，网站url默认为第一页，http://www.budejie.com/text/2为第二页，以此类推

对网站的内容段子所处位置进行分析，发现段子内容都是在一个 a 标签中

坑还是有的，这是我第一次写的正则：

content_list = re.findall(r'<a href="/detail-.*" rel="external nofollow" rel="external nofollow" rel="external nofollow" >(.+"j-r-list-c-desc">\s*<a href="/detail-.*" rel="external nofollow" rel="external nofollow" rel="external nofollow" >(.+"htmlcode">


import requests
import re
import json

class NeihanSpider(object):
  """内涵段子，百思不得其姐，正则爬取一页的数据"""
  def __init__(self):
    self.temp_url = 'http://www.budejie.com/text/{}' # 网站地址，给页码留个可替换的{}
    self.headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
    }

  def pass_url(self, url): # 发送请求，获取响应
    print(url)
    response = requests.get(url, headers=self.headers)
    return response.content.decode()

  def get_first_page_content_list(self, html_str): # 提取第一页的数据
    content_list = re.findall(r'<div class="j-r-list-c-desc">\s*<a href="/detail-.*" rel="external nofollow" rel="external nofollow" rel="external nofollow" >(.+?)</a>', html_str) # 非贪婪匹配
    return content_list

  def save_content_list(self, content_list):
    with open('neihan.txt', 'a', encoding='utf-8') as f:
      for content in content_list:
        f.write(json.dumps(content, ensure_ascii=False))
        f.write('\n') # 换行
      print('成功保存一页！')

  def run(self): # 实现主要逻辑
    for i in range(20): # 只爬取前20页数据
      # 1. 构造url
      # 2. 发送请求，获取响应
      html_str = self.pass_url(self.temp_url.format(i+1))
      # 3. 提取数据
      content_list = self.get_first_page_content_list(html_str)
      # 4. 保存
      self.save_content_list(content_list)

if __name__ == '__main__':
  neihan = NeihanSpider()
  neihan.run()



以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。


                                
                                    python,正则,爬取,request库


                        
                            
                                广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）

                                免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！
                            
                        
                        
                            
                                
                                    上一篇
                                    django drf框架中的user验证以及JWT拓展的介绍
                                
                            
                            
                                
                                    下一篇
                                    python中eval与int的区别浅析
                                
                            
                        
                        
                        
                            
                                
                                
                                    评论“python正则爬取某段子网站前20页段子(request库)过程解析”
                                
                            
                            
                                
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                                    
                                                
                                                
                                                    
                                                    
                                                    
                                                
                                                
                                                     再想想
                                                    
                                                    
                                                    
                                                    
                                                    
                                                
                                            
                                            
                                        
                                    
                                    
                                    
                                        暂无评论...


                    
                        
                            
                                
                                    
                                        
                                    
                                    
                                        
                                            
                                        
                                    
                                
                                
                                    www.wwsws.com
                                            
                                                伏龙阁资源网 
                                    
                                    
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                    
                                    
                                    
                                        
                                            39,976影音资源
                                        
                                        
                                            44,792技术资源
                                        
                                        
                                            21,817软件资源
                                        
                                        
                                            651,128站长资源
                                        
                                    
                                
                            
                            
                                最新文章
                                
                                    
                                         
                                       
                                            
                                                
                                            
                                            
                                                
                                                    转载一个别人收藏的精典网站Ruby,HIBERNATE
                                                
                                                
                                                    
                                                        2024/11/25
                                                        
                                                         56
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    可与Spreadsheets媲美的在线表格系统:EditG
                                                
                                                
                                                    
                                                        2024/11/25
                                                        
                                                         34
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    cygwin使用心得
                                                
                                                
                                                    
                                                        2024/11/25
                                                        
                                                         73
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    脚本的DVD开发
                                                
                                                
                                                    
                                                        2024/11/25
                                                        
                                                         28
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    局域网设置自动配置脚本文件的写法与用途
                                                
                                                
                                                    
                                                        2024/11/25
                                                        
                                                         15


            
            
                
                    
                        
                            更新日志
                        
                        
                            
                                
                                    2024年11月25日
                                
                                                    
                        
 
                            群星1990《群星会·金曲重现》新加坡版[WAV+CUE][1.1G]
 
                            张惠妹2003《勇敢》[WAV+CUE][1.1G]
 
                            群星1995《摇滚中国乐势力》首版引进版[WAV+CUE][983M]
 
                            陈思安《32首酒廊情调》2CD新雅(国际)影碟[WAV+CUE]
 
                            齐豫潘越云《回声》K2HD[正版原抓WAV+CUE]

                        
                    
                    
                        2024年11月25日
                    
                    
                        
 
                            凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
 
                            刘嘉亮《亮情歌2》[WAV+CUE][1G]
 
                            红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
 
                            刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
 
                            【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
 
                            邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
 
                            群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
 
                            刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
 
                            理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
 
                            公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
 
                            群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
 
                            群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
 
                            卫兰《DAUGHTER》【低速原抓WAV+CUE】
 
                            公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
 
                            ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]

                        
                    
                            
                        
                    
                
            
            
                
                    友情链接 
                
                    
                        杰晶网络
                        DDR爱好者之家
                        桃源资源网
                        杰网资源
                        富贵资源网
                        南强小屋
                        铁雪资源网
                        幽灵资源网
                        万梅资源网
                        狼山资源网
                        白云岛资源网
                        昆仑资源网
                        相思资源网
                        明霞山资源网
                        内蒙古资源网
                        黑松山资源网
                        茶园资源网
                        饿虎岗资源网
                        大旗谷资源网
                        常春岛资源网
                        岱庙资源网
                        兴国资源网
                        快活林资源网
                        蝙蝠岛资源网
                        帝王谷资源网
                        白云城资源网
                        伏龙阁资源网
                        清风细雨楼
                        天枫庄资源网
                        圆月山庄资源网
                        无争山庄资源网
                        神水资源网
                        移花宫资源网
                        神剑山庄资源网
                        无为清净楼资源网
                        金钱帮资源网
                        丐帮资源网
                        华山资源网
                        极乐门资源网
                        小李飞刀资源网
                        凤求凰客栈
                        风云阁资源网
                        金狮镖局
                        鸳鸯亭资源网
                        千金楼资源网
                        更多链接
                    
                
            
            
                
                    
                        
                    
                    
                        
                    
                
                
                    
                        Copyright © 2006~2023
                        伏龙阁资源网   Design by www.wwsws.com  手机版