博客
关于我
python简易爬虫
阅读量:189 次
发布时间:2019-02-28

本文共 2475 字,大约阅读时间需要 8 分钟。

爬取喜马来雅男频小说这几本

在这里插入图片描述

import requestsimport reimport csvheaders = {
       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','Cookie':'testcookie=yes; Hm_lvt_bc3b748c21fe5cf393d26c12b2c38d99=1619717328; Hm_lpvt_bc3b748c21fe5cf393d26c12b2c38d99=1619717328; JJEVER=%7B%22fenzhan%22%3A%22noyq%22%7D; smidV2=20210430012854effd865c944ddc429b0c481dfef3f31d0035c72a77d581610'}class ximalaiyaSpider:    def getSource(self):        # 获取url数据        # 目标url        url = 'https://www.ximalaya.com/channel/7/'        resp = requests.get(url, headers=headers)        resp.encoding='utf-8'        # print(resp.content.decode('utf-8'))        return resp.text    def parseSource(self):        content =self.getSource()        r =re.match(r'.*?(<ul class="_qt">.*?</ul>).*?',content,re.S)        # print(r.group(1))        # #<a class="album-title line-2 lg bold kF_" title="摸金天师(紫襟演播)" href="/youshengshu/4756811/"><span class="album-tag kF_"><i class="xuicon xuicon-wanben album-tag-icon kF_"></i></span><span class="v-m kF_">摸金天师(紫襟演播)</span></a>        a =r.group(1)        a_all=re.findall(r'<a class="album-title line-2 lg bold kF_" title=.*?</a>',a,re.S)        # print(a_all)  #<a class="album-title line-2 lg bold kF_" title="摸金天师(紫襟演播)" href="/youshengshu/4756811/"><span class="album-tag kF_"><i class="xuicon xuicon-wanben album-tag-icon kF_"></i></span><span class="v-m kF_">摸金天师(紫襟演播)</span></a>'        a_titleall=[]        pattern=re.compile(r'<a class="album-title line-2 lg bold kF_" title="(.*?)" href="/(.*?)"><span.*?>.*?</span></a>',re.S)        for i in a_all:            onetitle =pattern.match(i)            # print(type(onetitle.group(1)))#摸金天师(紫襟演播)            # print(onetitle.group(2))            # #[https://www.ximalaya.com/]这段没有要后期拼接url哦,这里group(2)结果是/youshengshu/4756811/            a_titleone=[onetitle.group(1),'https://www.ximalaya.com/'+onetitle.group(2)]            # print(a_titleone)#['"摸金天师(紫襟演播)" ', 'https://www.ximalaya.com/youshengshu/4756811/']            a_titleall.append(a_titleone)        return a_titleall    def saveData(self):        content=self.parseSource()        # 写入csv        with open('喜马来雅.csv','w',encoding='utf-8',newline='')as f:            writer=csv.writer(f)            header1=["作品",'链接']            writer.writerow(header1)            writer.writerows(content)def main():    ximalaiyaSpider().saveData()if __name__ == '__main__':    main()

csv结果:

在这里插入图片描述

转载地址:http://brun.baihongyu.com/

你可能感兴趣的文章
MySQLIntegrityConstraintViolationException异常处理
查看>>
mysqlreport分析工具详解
查看>>
MySQLSyntaxErrorException: Unknown error 1146和SQLSyntaxErrorException: Unknown error 1146
查看>>
Mysql_Postgresql中_geometry数据操作_st_astext_GeomFromEWKT函数_在java中转换geometry的16进制数据---PostgreSQL工作笔记007
查看>>
mysql_real_connect 参数注意
查看>>
mysql_secure_installation初始化数据库报Access denied
查看>>
MySQL_西安11月销售昨日未上架的产品_20161212
查看>>
Mysql——深入浅出InnoDB底层原理
查看>>
MySQL“被动”性能优化汇总
查看>>
MySQL、HBase 和 Elasticsearch:特点与区别详解
查看>>
MySQL、Redis高频面试题汇总
查看>>
MYSQL、SQL Server、Oracle数据库排序空值null问题及其解决办法
查看>>
mysql一个字段为空时使用另一个字段排序
查看>>
MySQL一个表A中多个字段关联了表B的ID,如何关联查询?
查看>>
MYSQL一直显示正在启动
查看>>
MySQL一站到底!华为首发MySQL进阶宝典,基础+优化+源码+架构+实战五飞
查看>>
MySQL万字总结!超详细!
查看>>
Mysql下载以及安装(新手入门,超详细)
查看>>
MySQL不会性能调优?看看这份清华架构师编写的MySQL性能优化手册吧
查看>>
MySQL不同字符集及排序规则详解:业务场景下的最佳选
查看>>