盗版小说网站下载离线小说方法

概述：

相信大家很多人都喜欢看小说，lures也不例外，lures高二的时候意外看到了《全职法师》，上了大学有时间也会看小说，今天就来给广大的朋友们分享一下如何在盗版小说网站上下载小说吧！

1、前提准备：

1	1、电脑装有Python编译环境
2	2、Python编译器(IDLE/Pycharm/Geany/ipython.....)
3	3、装有requests,re库
4	4、能上网

2、测试代码：

"""
1、导入爬虫工具包requests
2、确定爬取目标url
3、数据解析:用正则表达式匹配re到正确的章节url
4、保存数据
"""
import requests
import re
def jianlai(url):
    response = requests.get(url)
    response.encoding = response.apparent_encoding
    # 自动获取url的编码，然后按照那种编码爬取下来
    # print(response.text)
    results = re.findall('\d{7,9}',response.text)
    # print(results)
    for i in range(3,len(results)):
        real_url = url + results[i] + '.html'
        real_response = requests.get(real_url)
        real_response.encoding = real_response.apparent_encoding
        # print(real_response.text)
        html = str(re.findall('&nbsp;&nbsp;&nbsp;&nbsp;(.*?)<br />',real_response.text))
        name = (re.findall('<h1>(.*?)</h1>',real_response.text))[0]
        with open('C:/Users/HP/Desktop/剑来/'+str(name)+'.txt','w',encoding="utf-8") as f:
            f.write(str(html))
        print(str(name)+'已经下载完毕！')
        f.close()
jianlai('https://www.xbiquge.cc/book/13810/')

"""
1、导入爬虫工具包requests
2、确定爬取目标url
3、数据解析:用正则表达式匹配re到正确的章节url
4、保存数据
"""
import requests
import re

# url = 'http://www.shuquge.com/txt/8659/index.html'
def shuquge_novel_download(url):
    response = requests.get(url)
    response.encoding = response.apparent_encoding
    result = re.findall('<dd><a href="(.*?)">(.*?)</a></dd>', response.text, re.S)
    # print(result)
    for url, name in result:
        new_url = "http://www.shuquge.com/txt/8659/" + str(url)
        new_response = requests.get(str(new_url))
        new_response.encoding = new_response.apparent_encoding
        html = new_response.text
        result1 = re.findall('<div id="content" class="showtxt">(.*?)</div>', html, re.S)
        with open('C:/Users/HP/Desktop/寒假辛酸/python爬虫/01 爬虫基础/作业/课堂案例/1、《剑来》爬取/剑来/' + name + ".txt", mode="w",
                  encoding="utf-8") as f:
            f.write(str(result1[0]).replace("<br/>&nbsp;&nbsp;&nbsp;&nbsp;", "").replace("<br/>", ""))
        print(str(name) + '下载完毕！')
        f.close()
shuquge_novel_download('http://www.shuquge.com/txt/8659/index.html')

修改后代码，阅读起来舒服一点！

1	"""
2	1、导入爬虫工具包requests
3	2、确定爬取目标url
4	3、数据解析:用正则表达式匹配re到正确的章节url
5	4、保存数据
6	"""
7	import requests
8	import re
9	def jianlai(url):
10	response = requests.get(url)
11	response.encoding = response.apparent_encoding
12	# 自动获取url的编码，然后按照那种编码爬取下来
13	# print(response.text)
14	results = re.findall('\d{7,9}',response.text)
15	# print(results)
16	for i in range(3,len(results)):
17	real_url = url + results[i] + '.html'
18	real_response = requests.get(real_url)
19	real_response.encoding = real_response.apparent_encoding
20	# print(real_response.text)
21	html = str(re.findall('    (.*?)<br />',real_response.text))
22	name = (re.findall('<h1>(.*?)</h1>',real_response.text))[0]
23	with open('C:/Users/HP/Desktop/剑来/'+str(name)+'.txt','w',encoding="utf-8") as f:
24	f.write(str(html))
25	print(str(name)+'已经下载完毕！')
26	f.close()
27	jianlai('https://www.xbiquge.cc/book/13810/')