"); //-->
今天扣丁学堂给大家介绍一下关于用Python处理HTML转义字符的5种方式,首先大多数Python初学者觉得写爬虫是一个发送请求,提取数据,清洗数据,存储数据的过程。在这个过程中,不同的数据源返回的数据格式各不相同,有JSON格式,有XML文档,不过大部分还是HTML文档,HTML经常会混杂有转移字符,这些字符我们需要把它转义成真正的字符。

什么是转义字符
在HTML中<、>、&等字符有特殊含义(<,>用于标签中,&用于转义),他们不能在HTML代码中直接使用,如果要在网页中显示这些符号,就需要使用HTML的转义字符串(EscapeSequence),例如<的转义字符是<,浏览器渲染HTML页面时,会自动把转移字符串换成真实字符。
转义字符(EscapeSequence)由三部分组成:第一部分是一个&符号,第二部分是实体(Entity)名字,第三部分是一个分号。比如,要显示小于号(<),就可以写<。
<小于<
空格
<小于<
>大于>
&&符号&
"双引号"
©版权©
®已注册商标®
Python转义字符串反转义
用Python来处理转义字符串有多种方式,而且py2和py3中处理方式不一样,在python2中,反转义的模块是HTMLParser。
#Python2
importHTMLParser
>>>HTMLParser().unescape('param=p1¶m=p2')
'param=p1¶m=p2'
Python3HTMLParser模块迁移到了html.parser
#Python3
>>>fromhtml.parserimportHTMLParser
>>>HTMLParser().unescape('param=p1¶m=p2')
'param=p1¶m=p2'
到python3.4以后的版本,在html模块新增了unescape方法。
#Python3.4
>>>importhtml
>>>html.unescape('param=p1¶m=p2')
'param=p1¶m=p2'
推荐最后一种写法,因为HTMLParser.unescape方法在Python3.4就已经被废弃掉不推荐使用了,意味着之后的版本会被彻底移除。
另外,xml的sax模块也有支持反转义的函数
>>>fromxml.sax.saxutilsimportunescape
>>>unescape('param=p1¶m=p2')
'param=p1¶m=p2'
以上就是关于扣丁学堂Python培训之处理HTML转义字符五种方式的详细介绍,最后想要了解更多关于Python发展前景趋势,请关注扣丁学堂官网、微信等平台,扣丁学堂IT职业在线学习教育平台为您提供权威的Python视频教程系统,通过千锋扣丁学堂金牌讲师在线录制的Python视频教程课程,让你快速掌握Python从入门到精通开发实战技能。扣丁学堂Python技术交流群:816572891。
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
硬件基本功——单元测试
LM3S811 微控制器选型指南
村田顽童的堂妹“村田少女”问世 2
英飞凌与宝马集团携手合作,基于Neue Klasse架构塑造软件定义汽车的未来
NE555构成的具有时间识别功能的门锁报警器
99%的工程师忽略的问题:热对EMI的影响
能自动点火的煤气熄火报警器
LM3S801 微控制器选型指南
一款可以通过网络下载的DSP学习板
工业级eMMC瞄准嵌入式设计的长期供应需求
村田顽童——一年级学生篇
LM3S812 微控制器数据手册(英)
急尋Multi-ICE server軟件
简易漏电报警器
盛合晶微获准 IPO,先进封装加速芯片自主
实用的门控防盗报警器
摩尔线程MTT S5000全面适配Qwen3.5三款新模型
LM3S811 微控制器数据手册(英)
雷电预警装置
Bourns将于APEC (应用电力电子会议) 2026发表创新解决方案,满足高功率密度与高效率应用日益增长的需求
Robotaxi的护城河,正在被L2玩家填平
村田顽童的堂妹“村田少女”问世 1
村田顽童——三年级学生篇
各位斑竹,各位大侠,请看!!
请问:在VMWare上装Tornado,过来人请指教!
英特尔代工业务负责人跳槽高通
储能系统中功率器件的应用要点及输出能力分析
MSP430 介绍 (三)
[推荐]Atmel 推出全球首个价格低于3美元的 ARM7 闪存微控制器
LM3S812 微控制器选型指南