找回密码
  注册[Register]
查看: 1822|回复: 23

[python] 《Python》即不咳嗽的图片后不咳嗽的小说来了

  [复制链接]
发表于 2020-9-20 21:14 | 显示全部楼层 |阅读模式
禁止求评分、诱导评分、互刷评分、互刷悬赏值,违规者封号处理。
禁止发布推广、邀请码、邀请链接、二维码或者有利益相关的任何推广行为。
所有非原创软件请发布在【精品软件区】,发帖必须按照本版块版规格式发帖。

本次是在网上看到一些小说就感觉可以爬取下来 至于什么小说你们自己脑补 总共8个分类 一个分类750条数据
emmm 先发一个小说 下午发一个图片的 仅仅只是为了学习知识 请勿用于其他用途
本软件仅提供学习用途,请勿商用以及传播,请在下载24小时内删除

教程:打开输入要保存到那个位置的路径就可以了

成品下载:
游客,如果您要查看本帖隐藏内容请回复



源码:
  1. # UTF-8
  2. # author mimang

  3. import requests
  4. from bs4 import BeautifulSoup
  5. import os

  6. def getHtml(url):
  7.     response = requests.get(url, headers=headers)
  8.     response.encoding = 'utf-8'
  9.     html = BeautifulSoup(response.text, 'lxml')
  10.     return html

  11. def sub(strings, p, c):
  12.     new = []
  13.     for s in strings:
  14.         new.append(s)
  15.     new[p] = str(c)
  16.     return ''.join(new)

  17. headers = {
  18.     'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36',
  19.     'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
  20.     'Accept-Encoding': 'gzip, deflate, br',
  21.     'Cookie': 'UM_distinctid=174a9141007f29-0697ac1aa46086-3971095d-19fd10-174a9141008cbb; CNZZDATA1279234273=1349150808-1600561283-%7C1600561283'
  22. }

  23. url = 'xxxxxxxx'
  24. bookCount = 38

  25. path = input('输入:')
  26. if not(os.path.exists(path)):
  27.     os.mkdir(path)
  28.     print('路径已创建')

  29. html = getHtml(url + '/home/index.html')
  30. allBookUrl = html.select('#menu > ul.color > li > a')
  31. print(len(allBookUrl)) #图书分类数量
  32. os.chdir(path)
  33. for a in range(1,len(allBookUrl)): #8
  34.     if not(os.path.exists(allBookUrl[a].get_text())):
  35.         os.mkdir(allBookUrl[a].get_text())
  36.     os.chdir(allBookUrl[a].get_text())
  37.     for b in range(1,bookCount+1): #38
  38.         string = allBookUrl[a].get('href')
  39.         print(sub(string,21,b))
  40.         bookHtml = getHtml(url + sub(string,21,b))
  41.         bookList = bookHtml.select('#hellobox > div.newslist.textlist > ul > li > a')
  42.         for c in range(0, len(bookList)): #20
  43.             bookTitle = bookList[c].get_text()
  44.             bookUrl = bookList[c].get('href')aa
  45.             bookHtml2 = getHtml(url+bookUrl)
  46.             bookContent = bookHtml2.select('#hellobox > div.newsbody > div.nbodys')[0].get_text()
  47.             f = open(bookTitle+'.txt','ab')
  48.             f.write(bytes(bookContent, encoding = "utf8"))
  49.             print(bookTitle+':成功')
  50. f.close()
复制代码


免费评分

参与人数 1热心值 +1 牛币 +1 收起 理由
xiongtoa + 1 + 1 你这给个爬的链接啊?

查看全部评分

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心值】和【牛币】,加分不会扣除自己的积分,做一个热心并受欢迎的人!
发表于 2020-9-20 21:16 | 显示全部楼层
6666
如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心值】和【牛币】,加分不会扣除自己的积分,做一个热心并受欢迎的人!
回复 有用 没用

使用道具 举报

发表于 2020-9-20 21:20 | 显示全部楼层
谢谢大牛
如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心值】和【牛币】,加分不会扣除自己的积分,做一个热心并受欢迎的人!
回复 有用 没用

使用道具 举报

发表于 2020-9-20 21:32 | 显示全部楼层
6666666666
如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心值】和【牛币】,加分不会扣除自己的积分,做一个热心并受欢迎的人!
回复 有用 没用

使用道具 举报

发表于 2020-9-20 22:05 | 显示全部楼层
感谢楼主分享
如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心值】和【牛币】,加分不会扣除自己的积分,做一个热心并受欢迎的人!
回复 有用 没用

使用道具 举报

发表于 2020-9-20 22:39 | 显示全部楼层
谢谢分享
如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心值】和【牛币】,加分不会扣除自己的积分,做一个热心并受欢迎的人!
回复 有用 没用

使用道具 举报

发表于 2020-9-20 22:39 | 显示全部楼层
顶帖是一种态度,也是一种尊重。
如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心值】和【牛币】,加分不会扣除自己的积分,做一个热心并受欢迎的人!
回复 有用 没用

使用道具 举报

发表于 2020-9-20 22:39 | 显示全部楼层
谢谢大佬
如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心值】和【牛币】,加分不会扣除自己的积分,做一个热心并受欢迎的人!
回复 有用 没用

使用道具 举报

发表于 2020-9-21 01:17 | 显示全部楼层
好的,非常感谢
如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心值】和【牛币】,加分不会扣除自己的积分,做一个热心并受欢迎的人!
回复 有用 没用

使用道具 举报

发表于 2020-9-21 02:00 | 显示全部楼层
感谢楼主分享!大牛有你更精彩!
如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心值】和【牛币】,加分不会扣除自己的积分,做一个热心并受欢迎的人!
回复 有用 没用

使用道具 举报

您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

RSS订阅|手机版|小黑屋|大牛论坛 |我的广告

GMT+8, 2024-4-19 12:23 , Processed in 0.041029 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表