博客
关于我
python简易爬虫
阅读量:190 次
发布时间:2019-02-28

本文共 1909 字,大约阅读时间需要 6 分钟。

爬取喜马来雅男频小说这几本

在这里插入图片描述

import requestsimport reimport csvheaders = {       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','Cookie':'testcookie=yes; Hm_lvt_bc3b748c21fe5cf393d26c12b2c38d99=1619717328; Hm_lpvt_bc3b748c21fe5cf393d26c12b2c38d99=1619717328; JJEVER=%7B%22fenzhan%22%3A%22noyq%22%7D; smidV2=20210430012854effd865c944ddc429b0c481dfef3f31d0035c72a77d581610'}class ximalaiyaSpider:    def getSource(self):        # 获取url数据        # 目标url        url = 'https://www.ximalaya.com/channel/7/'        resp = requests.get(url, headers=headers)        resp.encoding='utf-8'        # print(resp.content.decode('utf-8'))        return resp.text    def parseSource(self):        content =self.getSource()        r =re.match(r'.*?(
    .*?
).*?',content,re.S) # print(r.group(1)) # #摸金天师(紫襟演播) a =r.group(1) a_all=re.findall(r'',a,re.S) # print(a_all) #摸金天师(紫襟演播)' a_titleall=[] pattern=re.compile(r'
.*?
',re.S) for i in a_all: onetitle =pattern.match(i) # print(type(onetitle.group(1)))#摸金天师(紫襟演播) # print(onetitle.group(2)) # #[https://www.ximalaya.com/]这段没有要后期拼接url哦,这里group(2)结果是/youshengshu/4756811/ a_titleone=[onetitle.group(1),'https://www.ximalaya.com/'+onetitle.group(2)] # print(a_titleone)#['"摸金天师(紫襟演播)" ', 'https://www.ximalaya.com/youshengshu/4756811/'] a_titleall.append(a_titleone) return a_titleall def saveData(self): content=self.parseSource() # 写入csv with open('喜马来雅.csv','w',encoding='utf-8',newline='')as f: writer=csv.writer(f) header1=["作品",'链接'] writer.writerow(header1) writer.writerows(content)def main(): ximalaiyaSpider().saveData()if __name__ == '__main__': main()

csv结果:

在这里插入图片描述

转载地址:http://brun.baihongyu.com/

你可能感兴趣的文章
mysql中json_extract的使用方法
查看>>
mysql中json_extract的使用方法
查看>>
mysql中kill掉所有锁表的进程
查看>>
mysql中like % %模糊查询
查看>>
MySql中mvcc学习记录
查看>>
mysql中null和空字符串的区别与问题!
查看>>
MySQL中ON DUPLICATE KEY UPDATE的介绍与使用、批量更新、存在即更新不存在则插入
查看>>
MYSQL中TINYINT的取值范围
查看>>
MySQL中UPDATE语句的神奇技巧,让你操作数据库如虎添翼!
查看>>
Mysql中varchar类型数字排序不对踩坑记录
查看>>
MySQL中一条SQL语句到底是如何执行的呢?
查看>>
MySQL中你必须知道的10件事,1.5万字!
查看>>
MySQL中使用IN()查询到底走不走索引?
查看>>
Mysql中使用存储过程插入decimal和时间数据递增的模拟数据
查看>>
MySql中关于geometry类型的数据_空的时候如何插入处理_需用null_空字符串插入会报错_Cannot get geometry object from dat---MySql工作笔记003
查看>>
mysql中出现Incorrect DECIMAL value: '0' for column '' at row -1错误解决方案
查看>>
mysql中出现Unit mysql.service could not be found 的解决方法
查看>>
mysql中出现update-alternatives: 错误: 候选项路径 /etc/mysql/mysql.cnf 不存在 dpkg: 处理软件包 mysql-server-8.0的解决方法(全)
查看>>
Mysql中各类锁的机制图文详细解析(全)
查看>>
MySQL中地理位置数据扩展geometry的使用心得
查看>>