爬取”顶点小说网“《纯阳剑尊》
代码
import requests from bs4 import BeautifulSoup # 反爬 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36' } # 获得请求 def open_url(url): response = requests.get(url, headers=headers) response.encoding = response.apparent_encoding html = response.text return html # 提取标题 def get_title(url): soup = BeautifulSoup(url, 'lxml') title_tag = soup.find('dd') title = '\n' + title_tag.h1.get_text() + '\n' return title # 提取文本 def get_texts(url): soup2 = BeautifulSoup(url, 'lxml') text_tags = soup2.find_all('dd', id="contents") return text_tags # 保存标题 def save_title(filename, title): with open(filename, 'a+', encoding='utf-8') as file: file.write(title) # 保存文本 def save_text(filename, text): with open(filename, 'a+', encoding='utf-8') as file: file.write(text) # 主程序函数 def main(): num = input('《纯阳剑尊》你想要下载第几章?(1-802)') num = int(num) number = 8184027 + num url = 'https://www.23us.so/files/article/html/15/15905/' + str(number) + '.html' filename = '纯阳剑尊.txt' r = open_url(url) title = get_title(r) tags = get_texts(r) save_title(filename, title) for text_tag in tags: text = text_tag.get_text() + '\n' save_text(filename, text) print('第{}章已经下载完成!'.format(num)) if __name__ == '__main__': main()
爬取结果:
以上就是python爬取”顶点小说网“《纯阳剑尊》的示例代码的详细内容,更多关于python 爬取顶点小说网的资料请关注其它相关文章!
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
暂无评论...
更新日志
2024年12月25日
2024年12月25日
- 小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
- 群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
- 群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
- 雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
- 群星《2024好听新歌42》AI调整音效【WAV分轨】
- 王思雨-《思念陪着鸿雁飞》WAV
- 王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
- 李健《无时无刻》[WAV+CUE][590M]
- 陈奕迅《酝酿》[WAV分轨][502M]
- 卓依婷《化蝶》2CD[WAV+CUE][1.1G]
- 群星《吉他王(黑胶CD)》[WAV+CUE]
- 齐秦《穿乐(穿越)》[WAV+CUE]
- 发烧珍品《数位CD音响测试-动向效果(九)》【WAV+CUE】
- 邝美云《邝美云精装歌集》[DSF][1.6G]
- 吕方《爱一回伤一回》[WAV+CUE][454M]