使用Python编写简单网络爬虫抓取视频下载资源

站长资源 2024/11/24 佚名

2 0 1

我第一次接触爬虫这东西是在今年的5月份，当时写了一个博客搜索引擎，所用到的爬虫也挺智能的，起码比电影来了这个站用到的爬虫水平高多了！

回到用Python写爬虫的话题。

Python一直是我主要使用的脚本语言，没有之一。Python的语言简洁灵活，标准库功能强大，平常可以用作计算器，文本编码转换，图片处理，批量下载，批量处理文本等。总之我很喜欢，也越用越上手，这么好用的一个工具，一般人我不告诉他。。。

因为其强大的字符串处理能力，以及urllib2，cookielib，re，threading这些模块的存在，用Python来写爬虫就简直易于反掌了。简单到什么程度呢。我当时跟某同学说，我写电影来了用到的几个爬虫以及数据整理的一堆零零散散的脚本代码行数总共不超过1000行，写电影来了这个网站也只有150来行代码。因为爬虫的代码在另外一台64位的黑苹果上，所以就不列出来，只列一下VPS上网站的代码，tornadoweb框架写的

[xiaoxia@307232 movie_site]$ wc -l *.py template/*
  156 msite.py
   92 template/base.html
   79 template/category.html
   94 template/id.html
   47 template/index.html
   77 template/search.html

下面直接show一下爬虫的编写流程。以下内容仅供交流学习使用，没有别的意思。

以某湾的最新视频下载资源为例，其网址是

http://某piratebay.se/browse/200

因为该网页里有大量广告，只贴一下正文部分内容：

对于一个python爬虫，下载这个页面的源代码，一行代码足以。这里用到urllib2库。

> import urllib2
> html = urllib2.urlopen('http://某piratebay.se/browse/200').read()
> print 'size is', len(html)
size is 52977

当然，也可以用os模块里的system函数调用wget命令来下载网页内容，对于掌握了wget或者curl工具的同学是很方便的。

使用Firebug观察网页结构，可以知道正文部分html是一个table。每一个资源就是一个tr标签。

而对于每一个资源，需要提取的信息有：

1、视频分类
2、资源名称
3、资源链接
4、资源大小
5、上传时间

就这么多就够了，如果有需要，还可以增加。

首先提取一段tr标签里的代码来观察一下。

<tr>
  <td class="vertTh">
   <center>
    <a href="/browse/200" title="此目录中更多">视频</a><br />
    (<a href="/browse/205" title="此目录中更多">电视</a>)
   </center>
  </td>
  <td>
<div class="detName">   <a href="/torrent/7782194/The_Walking_Dead_Season_3_Episodes_1-3_HDTV-x264" class="detLink" title="细节 The Walking Dead Season 3 Episodes 1-3 HDTV-x264">The Walking Dead Season 3 Episodes 1-3 HDTV-x264</a>
</div>
<a href="magnet:" title="Download this torrent using magnet"><img src="/UploadFiles/2021-04-08/icon-magnet.gif">   <font class="detDesc">已上传 <b>3&nbsp;分钟前</b>, 大小 2&nbsp;GiB, 上传者 <a class="detDesc" href="/user/paridha/" title="浏览 paridha">paridha</a></font>
  </td>
  <td align="right">0</td>
  <td align="right">0</td>
 </tr>

下面用正则表达式来提取html代码中的内容。对正则表达式不了解的同学，可以去 http://docs.python.org/2/library/re.html 了解一下。

为何要用正则表达式而不用其他一些解析HTML或者DOM树的工具是有原因的。我之前试过用BeautifulSoup3来提取内容，后来发觉速度实在是慢死了啊，一秒钟能够处理100个内容，已经是我电脑的极限了。。。而换了正则表达式，编译后处理内容，速度上直接把它秒杀了！

提取这么多内容，我的正则表达式要如何写呢？

根据我以往的经验，“.*"wp-smiley" alt=":)" src="/UploadFiles/2021-04-08/201411041617236.gif">

对于上面的tr标签代码，我首先需要让我的表达式匹配到的符号是

<tr>

表示内容的开始，当然也可以是别的，只要不要错过需要的内容即可。然后我要匹配的内容是下面这个，获取视频分类。

(<a href="/browse/205" title="此目录中更多">电视</a>)

接着我要匹配资源链接了，

<a href="..." class="detLink" title="...">...</a>

再到其他资源信息，

font class="detDesc">已上传 <b>3 分钟前</b>, 大小 2 GiB, 上传者

最后匹配

</tr>

大功告成！

当然，最后的匹配可以不需要在正则表达式里表示出来，只要开始位置定位正确了，后面获取信息的位置也就正确了。

对正则表达式比较了解的朋友，可能知道怎么写了。我Show一下我写的表达式处理过程，

就这么简单，结果出来了，自我感觉挺欢喜的。

当然，这样设计的爬虫是有针对性的，定向爬取某一个站点的内容。也没有任何一个爬虫不会对收集到的链接进行筛选。通常可以使用BFS（宽度优先搜索算法）来爬取一个网站的所有页面链接。

完整的Python爬虫代码，爬取某湾最新的10页视频资源：

# coding: utf8
import urllib2
import re
import pymongo
db = pymongo.Connection().test
url = 'http://某piratebay.se/browse/200/%d/3'
find_re = re.compile(r'<tr>.+">(.+"detLink".+">(.+"(magnet:.+" .+"wp-smiley" alt=":D" src="/UploadFiles/2021-04-08/2014110416172910.gif">

好吧，那么问题来了学习挖掘机（数据）技术到底哪家强？

Python,爬虫,抓取

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

上一篇
 零基础写python爬虫之爬虫的定义及URL构成

下一篇
 Python爬取Coursera课程资源的详细过程

评论“使用Python编写简单网络爬虫抓取视频下载资源”

再想想

暂无评论...

www.wwsws.com 伏龙阁资源网

39,976影音资源

44,792技术资源

21,817软件资源

651,128站长资源

最新文章

转载一个别人收藏的精典网站Ruby,HIBERNATE

2024/11/24
56

可与Spreadsheets媲美的在线表格系统:EditG

2024/11/24
34

cygwin使用心得

2024/11/24
73

脚本的DVD开发

2024/11/24
28

局域网设置自动配置脚本文件的写法与用途

2024/11/24
15

站点导航
抖音极速版河马剧场京东小红书微信高德地图红果短剧夸克美团剪映拼多多支付宝淘宝快手 QQ 哔哩哔哩番茄小说得物阿里巴巴王者荣耀和平精英腾讯视频爱奇艺 QQ音乐咸鱼之王逆水寒三国志战略版梦幻西游金铲铲之战捕鱼大作战原神英雄联盟手游网易云音乐崩坏星穹铁道优酷视屏酷狗音乐蛋仔派对

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

更新日志

2024年11月24日

群星1990《群星会·金曲重现》新加坡版[WAV+CUE][1.1G]

张惠妹2003《勇敢》[WAV+CUE][1.1G]

群星1995《摇滚中国乐势力》首版引进版[WAV+CUE][983M]

陈思安《32首酒廊情调》2CD新雅(国际)影碟[WAV+CUE]

齐豫潘越云《回声》K2HD[正版原抓WAV+CUE]

2024年11月24日

凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]

刘嘉亮《亮情歌2》[WAV+CUE][1G]

红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]

刘纬武《睡眠宝宝竖琴童谣吉卜力工作室白噪音安抚》[320K/MP3][193.25MB]

【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]

邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]

群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]

刘纬武《睡眠宝宝竖琴童谣吉卜力工作室白噪音安抚》[FLAC/分轨][748.03MB]

理想混蛋《Origin Sessions》[320K/MP3][37.47MB]

公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]

群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]

群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]

卫兰《DAUGHTER》【低速原抓WAV+CUE】

公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]

ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]

友情链接

杰晶网络 DDR爱好者之家桃源资源网杰网资源富贵资源网南强小屋铁雪资源网幽灵资源网万梅资源网狼山资源网白云岛资源网昆仑资源网相思资源网明霞山资源网内蒙古资源网黑松山资源网茶园资源网饿虎岗资源网大旗谷资源网常春岛资源网岱庙资源网兴国资源网快活林资源网蝙蝠岛资源网帝王谷资源网白云城资源网伏龙阁资源网清风细雨楼天枫庄资源网圆月山庄资源网无争山庄资源网神水资源网移花宫资源网神剑山庄资源网无为清净楼资源网金钱帮资源网丐帮资源网华山资源网极乐门资源网小李飞刀资源网凤求凰客栈风云阁资源网金狮镖局鸳鸯亭资源网千金楼资源网更多链接

Copyright © 2006~2023 伏龙阁资源网 Design by www.wwsws.com 手机版