python爬虫入门教程之糗百图片爬虫代码分享

站长资源 2024/11/24 佚名

2 0 1

学习python少不了写爬虫，不仅能以点带面地学习、练习使用python，爬虫本身也是有用且有趣的，大量重复性的下载、统计工作完全可以写一个爬虫程序完成。

用python写爬虫需要python的基础知识、涉及网络的几个模块、正则表达式、文件操作等知识。昨天在网上学习了一下，写了一个爬虫自动下载「糗事百科」里面的图片。源代码如下：

复制代码代码如下:
# -*- coding: utf-8 -*-
# 上面那句让代码里支持中文

#---------------------------------------
#   程序：糗百图片爬虫
#   版本：0.1
#   作者：赵伟
#   日期：2013-07-25
#   语言：Python 2.7
#   说明：能设置下载的页数。没有做更多抽象和交互方面的优化。
#---------------------------------------

import urllib2
import urllib
import re

#正则表达式，用来抓取图片的地址
pat = re.compile('<div class="thumb">\\n<img src=\"(ht.*".*?>')

#用来合成网页的URL
nexturl1 = "http://m.qiushibaike.com/imgrank/page/"
nexturl2 = ""

#页数计数
count = 1

#设置抓取的页数
while count < 3:

    print "Page " + str(count) + "\n"
    myurl = nexturl1 + str(count) + nexturl2
    myres = urllib2.urlopen(myurl)#抓取网页
    mypage = myres.read()#读取网页内容
    ucpage = mypage.decode("utf-8") #转码

    mat = pat.findall(ucpage)#用正则表达式抓取图片地址

    count += 1;

    if len(mat):
        for item in mat:
            print "url: " + item + "\n"
            fnp = re.compile('/(\w+\.\w+)$')#下面三行分离出图片文件的名称
            fnr = fnp.findall(item)
            fname = fnr[0]
            urllib.urlretrieve(item, fname)#下载图片

    else:
        print "no data"

使用方法：新建一个practice文件夹，将源代码保存为qb.py文件，并放在practice文件夹中，在命令行里执行python qb.py，即开始下载图片。可以修改源代码里面的while语句设置下载的页数。

python,爬虫入门教程,糗百图片爬虫

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

评论“python爬虫入门教程之糗百图片爬虫代码分享”

暂无评论...

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

更新日志

2024年11月24日

python爬虫入门教程之糗百图片爬虫代码分享

Python深入学习之对象的属性

Python深入学习之上下文管理器

评论“python爬虫入门教程之糗百图片爬虫代码分享”

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

更新日志

友情链接