千家信息网

python怎么抓取糗事百科的内容

发表于:2024-11-22 作者:千家信息网编辑
千家信息网最后更新 2024年11月22日,这篇文章主要讲解了"python怎么抓取糗事百科的内容",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"python怎么抓取糗事百科的内容"吧!# 抓取糗
千家信息网最后更新 2024年11月22日python怎么抓取糗事百科的内容

这篇文章主要讲解了"python怎么抓取糗事百科的内容",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"python怎么抓取糗事百科的内容"吧!

# 抓取糗事百科的内容import requestsfrom lxml import etreeclass Qiushi() :        def __init__(self) :                 self.url = 'http://www.qiushibaike.com/8hr/page/{}';                self.headers = {                        "User-Agent":"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"                };        def parse_url(self , url) :                 response = requests.get(url , timeout = 10 , headers = self.headers)                assert response.status_code == 200                print(url)                return etree.HTML(response.text)        def parse_content(self , html) :                 item = html.xpath('//div[@class="recommend-article"]/ul/li')                print(item)                for i in item :                         # 内容                         print(i.xpath('./div/a[@class="recmd-content"]/text()'));                        # 好笑数                        print(i.xpath('./div/div[@class="recmd-detail clearfix"]/div/span[1]/text()'))                        # 评论数                        print(i.xpath('./div/div[@class="recmd-detail clearfix"]/div/span[4]/text()'))                        # 用户名                        print(i.xpath('./div/div[@class="recmd-detail clearfix"]/a/span/text()'))                        # 头像地址                        print(i.xpath('./div/div[@class="recmd-detail clearfix"]/a/img/@src'))        def run(self) :                 url = self.url.format(1);                html = self.parse_url(url);                self.parse_content(html);if __name__ == '__main__':         qiu = Qiushi();        qiu.run();

感谢各位的阅读,以上就是"python怎么抓取糗事百科的内容"的内容了,经过本文的学习后,相信大家对python怎么抓取糗事百科的内容这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是,小编将为大家推送更多相关知识点的文章,欢迎关注!

0