python去掉 unicode 字符串前面的u方法

作者:Pd11r 时间:2021-03-02 20:53:33 

有时我们会碰到类似下面这样的 unicode 字符串:


u'\xe4\xbd\xa0\xe5\xa5\xbd'

这明显不是一个正确的 unicode 字符串,可能是在哪个地方转码转错了。

我们要想得到正确的 unicode 字符串首先就必须先将这个字符串转成非 unicode 字符串, 然后再进行解码。按照普通的办法进行 encode 肯定是不行的,因为这不是一个正确的 unicode 字符串:


In [1]: u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('utf8')
Out[1]: '\xc3\xa4\xc2\xbd\xc2\xa0\xc3\xa5\xc2\xa5\xc2\xbd'

In [2]: print u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('utf8')
盲陆聽氓楼陆
那如何才能得到我们想要的 \xe4\xbd\xa0\xe5\xa5\xbd 呢?

python 提供了一个特殊的编码( raw_unicode_escape )用来处理这种情况:

In [4]: u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('raw_unicode_escape')
Out[4]: '\xe4\xbd\xa0\xe5\xa5\xbd'

In [5]: u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('raw_unicode_escape').decode('utf8')
Out[5]: u'\u4f60\u597d'

In [7]: print u'\u4f60\u597d'
你好

来源:https://blog.csdn.net/qq_33020901/article/details/78391789

标签:python,unicode,u
0
投稿

猜你喜欢

  • keras输出预测值和真实值方式

    2021-11-26 20:25:18
  • 前端可视化搭建组件值校验规则详解

    2024-04-19 09:42:32
  • 浅谈MySQL timestamp(3)问题

    2024-01-14 17:47:23
  • Mysql全局ID生成方法

    2023-07-02 13:59:53
  • 简单的前端js+ajax 购物车框架(入门篇)

    2024-04-23 09:29:52
  • Python实现K-means聚类算法并可视化生成动图步骤详解

    2021-06-20 23:10:40
  • Javascript查看大图功能代码实现

    2024-04-22 13:03:46
  • Python基础之字典常见操作经典实例详解

    2022-09-01 15:59:18
  • 在Python中通过机器学习实现人体姿势估计

    2022-05-20 13:08:25
  • Python模板的使用详细讲解

    2022-03-20 13:24:08
  • 错误22022 SQLServerAgent当前未运行的解决方法

    2024-01-27 21:19:32
  • java代码实现mysql分表操作(用户行为记录)

    2024-01-17 22:57:09
  • TensorFlow实现iris数据集线性回归

    2023-11-14 09:56:39
  • Python中的高级数据结构详解

    2022-02-20 04:01:09
  • css样式表使用技巧小结

    2008-01-11 20:44:00
  • python基于三阶贝塞尔曲线的数据平滑算法

    2022-04-19 18:23:06
  • 数据库之:Mysql数据库服务器安装与配置

    2010-08-31 14:11:00
  • 好玩的vbs微信小程序之语言播报功能

    2023-04-27 12:54:29
  • 解析SQL Server数据体系和应用程序逻辑

    2009-01-23 13:58:00
  • python语音识别的转换方法

    2023-12-06 20:56:57
  • asp之家 网络编程 m.aspxhome.com