千家信息网

python对网页文本的格式化的方法是什么

发表于:2024-11-20 作者:千家信息网编辑
千家信息网最后更新 2024年11月20日,这篇文章主要讲解了"python对网页文本的格式化的方法是什么",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"python对网页文本的格式化的方法是什么
千家信息网最后更新 2024年11月20日python对网页文本的格式化的方法是什么

这篇文章主要讲解了"python对网页文本的格式化的方法是什么",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"python对网页文本的格式化的方法是什么"吧!

1、一个网页通常包含文本信息。对于不同的文本类型,我们可以选择合适的HTML语义元素进行标记。

2、em元素用于标记和强调部分内容,small元素用于注释和署名文本。

实例

    

论语学而篇第一

作者:孔子1

本篇引语

《学而》是《论语》第一篇的篇名。《论语》中各篇一般都是以第一章的前二三个字作为该篇的篇名。《学而》一篇包括16章,内容涉及诸多方面。其中重点是 「吾日三省吾身」;「节用而爱人,使民以时」;「礼之用,和为贵」以及仁、孝、信等道德范畴。

原文

子曰:「学而时习之,不亦说乎?有朋自远方来,不亦乐乎?人不知,而不愠,不亦君子乎?」

知识点扩展:

Python int与string之间的转化

string->int

1、10进制string转化为int

int('12')

2、16进制string转化为int

int('12', 16)

int->string

1、int转化为10进制string

str(18)

2、int转化为16进制string

hex(18)


2 . 由于链家网上面选中第二页的时候,只是在页面后面多了一个"d2", 如: http://sh.lianjia.com/ershoufang/pudong/d2 , 所以要想爬取更多的网页只需要循环更新requests 的页面URL

3 . 增加了一个循环之后,可以打印所有的爬取结果

from lxml import etreeimport requestsimport stringurl = 'http://sh.lianjia.com/ershoufang/'region = 'pudong'price = 'p23'finalURL = url+region+pricedef spider_room(finallyURL):   r= requests.get(finallyURL)   html = requests.get(finalURL).content.decode('utf-8')   dom_tree = etree.HTML(html)   # all the messages   all_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")   for index in range(len(all_message)):      print(all_message[index].xpath('string(.)').strip())   returnfor i in range(20):   finallyURL = finalURL + '/d'+str(i)   spider_room(finallyURL)

4 . 爬取了20页的内容,可是内容的结果输出的形式并没有改变

感谢各位的阅读,以上就是"python对网页文本的格式化的方法是什么"的内容了,经过本文的学习后,相信大家对python对网页文本的格式化的方法是什么这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是,小编将为大家推送更多相关知识点的文章,欢迎关注!

0