pythonlxml中etree的简单应用-创新互联

我一般都是通过xpath解析DOM树的时候会使用lxml的etree,可以很方便的从html源码中得到自己想要的内容。

从网站建设到定制行业解决方案,为提供成都网站制作、网站建设、外贸网站建设服务体系,各种行业企业客户提供网站建设解决方案,助力业务快速发展。创新互联将不断加快创新步伐,提供优质的建站服务。

这里主要介绍一下我常用到的两个方法,分别是etree.HTML()和etree.tostrint()。

1.etree.HTML()

etree.HTML()可以用来解析字符串格式的HTML文档对象,将传进去的字符串转变成_Element对象。作为_Element对象,可以方便的使用getparent()、remove()、xpath()等方法。

如果想通过xpath获取html源码中的内容,就要先将html源码转换成_Element对象,然后再使用xpath()方法进行解析。例如,这里有一段最简单的html源码:"

This is a test

",现在想要得到h2标签中的文本,可以这样实现:

# encoding=utf8
 
from lxml import etree
 
html = '

This is a test

' # 将html转换成_Element对象 _element = etree.HTML(html) # 通过xpath表达式获取h2标签中的文本 text = _element.xpath('//h2/text()') print 'result is: ', text

网页标题:pythonlxml中etree的简单应用-创新互联
URL分享:http://hxwzsj.com/article/gchdd.html

其他资讯

Copyright © 2025 青羊区翔捷宏鑫字牌设计制作工作室(个体工商户) All Rights Reserved 蜀ICP备2025123194号-14
友情链接: 响应式网站设计 app网站建设 成都企业网站建设 网站设计 企业网站建设公司 手机网站建设套餐 成都网站设计 成都网站建设公司 企业网站建设 重庆电商网站建设 成都网站设计 网站建设公司 重庆手机网站建设 高端网站建设 攀枝花网站设计 成都网站设计制作公司 泸州网站建设 成都网站建设 网站设计制作报价 重庆网站建设 广安网站设计 外贸营销网站建设