Python中文字符串截取问题

站长资源 2024/11/25 佚名

2 0 1

先来看个例子：

#-*- coding:utf8 -*-
s = u'中文截取'
s.decode('utf8')[0:3].encode('utf8')
# 结果u'中文截取

延伸阅读：

UTF-8中的汉字占用多少字节？
占2个字节的：〇
占3个字节的：基本等同于GBK，含21000多个汉字
占4个字节的：中日韩超大字符集里面的汉字，有5万多个
一个UTF-8数字占1个字节
一个UTF-8英文字母占1个字节

在查找 UTF-8 编码资料时发现，很多的帖子说的 UTF-8 编码里，一个汉字占用3个字节，有的还做了个证明，大概是这样的，创建一个没有BOM的UTF-8编码的文本文件，里面保存了几个汉字，然后查看文件的大小。我觉得这样的证明没有一点说服力，因为 UTF-8 是变长的，1-6个字节，少量的汉字检测是不能说明所有的汉字都是的。

后来我又查看了字符映射表－汉语，找到了正确的答案，少数是汉字每个占用3个字节，多数占用4个字节。

以上所述就是本文的全部内容了，希望大家能够喜欢。

Python,中文字符串,截取

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

评论“Python中文字符串截取问题”

暂无评论...

www.wwsws.com 伏龙阁资源网

39,976影音资源

44,792技术资源

21,817软件资源

651,128站长资源

更新日志

2024年11月25日

Python中文字符串截取问题

Windows下实现Python2和Python3两个版共存的方法

Python3中的2to3转换工具使用示例

评论“Python中文字符串截取问题”

更新日志

友情链接