楼主: 爱上行
952 0

[python专版] Python下的字符串问题(注意:Python3) [推广有奖]

  • 5关注
  • 2粉丝

本科生

60%

还不是VIP/贵宾

-

威望
0
论坛币
1124 个
通用积分
271.6376
学术水平
14 点
热心指数
17 点
信用等级
15 点
经验
3794 点
帖子
91
精华
0
在线时间
45 小时
注册时间
2014-7-5
最后登录
2021-1-5

楼主
爱上行 学生认证  发表于 2015-4-11 00:01:31 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在Python 2中,字符串字面量对应于8位的字符或面向字节编码的字节字面量。这些字符串的一个重要限制是它们无法完全地支持国际字符集和Unicode编码。为了解决这种限制,Python 2对Unicode数据使用了单独的字符串类型。要输入Unicode字符串字面量,要在第一个引号前加上前最'u'。
   Python 2中还有一种称为字节字面量的字符串类型,它是指一个已经编码的字符串字面量,在Python 2中字节字面量和普通字符串没有差别,因为在Python 2中普通字符串实际上就是已经编码(非Unicode)的字节字符串。在Python 3中,不必加入这个前缀字符,否则是语法错误,这是因为所有的字符串默认已经是Unicode编码了。如果使用-U选项运行解释器,Python2会模拟这种行为(即所有字符串字面量将被作为Unicode字符对待,u前缀可以省略)。在Python 3中,字节字面量变成了与普通字符串不同的类型。
~/download/firefox $ python2
Python 2.7.2 (default, Jun 29 2011, 11:17:09)
[GCC 4.6.1] on linux 2
Type "help", "copyright", "credits" or "license" for more information.
>>> '张俊' #python2 会自动将字符串转换为合适编码的字节字符串
'\xe5\xbc\xa0\xe4\xbf\x8a' #自动转换为utf-8编码的字节字符串
>>> u'张俊'   #显式指定字符串类型为unicode类型, 此类型字符串没有编码,保存的是字符在unicode字符集中的代码点(序号)
u'\u5f20\u4fca'
>>> '张俊'.encode('utf-8')  #python2 已经自动将其转化为utf-8类型编码,因此再次编码(python2会将该字符串当作用ascii或unicode编码过)会出现错误。
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)
>>> '张俊'.decode('utf-8')  #python2 可以正常解码,返回的字符串类是无编码的unicode类型
u'\u5f20\u4fca'
>>> b'张俊'   # ‘张俊' 已被python2转换为utf-8编码,因此已为字节字符串
'\xe5\xbc\xa0\xe4\xbf\x8a'
>>> print '张俊'
张俊
>>> print u'张俊'
张俊
>>> print b'张俊'
张俊
>>>



~/download/firefox $ python3
Python 3.2.2 (default, Sep 5 2011, 04:33:58)
[GCC 4.6.1 20110819 (prerelease)] on linux2
Type "help", "copyright", "credits" or "license" for more information
>>> '张俊' #python3的字符串默认为unicode格式(无编码)
'张俊'
>>> u'张俊' #由于默认为unicode格式,因此字符串不用像python2一样显式地指出其类型,否则是语法错误。
File "<stdin>", line 1

u'张俊'
^
SyntaxError: invalid syntax
>>> type('张俊') #python3中文本字符串和字节字符串是严格区分的,默认为unicode格式的文本字符串
<class 'str'>
>>> '张俊'.decode('utf-8') #因为默认的文本字符串为unicode格式,因此文本字符串没有decode方法
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'str' object has no attribute 'decode'

[size=13.9200000762939px]
>>> '张俊'.encode('utf-8') #将文本字符串编码,转换为已编码的字节字符串类型
b'\xe5\xbc\xa0\xe4\xbf\x8a'
>>> type('张俊'.encode('utf-8'))
<class 'bytes'>
>>> print ('张俊'.encode('utf-8')) #对于已编码的字节字符串,文本字符串的许多特性和方法已经不能使用。
b'\xe5\xbc\xa0\xe4\xbf\x8a'[[size=13.9200000762939px]
>>>print ('张俊'.encode('utf-8'))
b'\xe5\xbc\xa0\xe4\xbf\x8a'
>>> print ('张俊'.encode('utf-8').decode('utf-8'))  
[size=13.9200000762939px]#必须将字节字符串解码后才能打印出来
张俊

由上得出:python 3中只有unicode str,所以把decode方法去掉了。你的代码中,f1已经是unicode str了,不用decode。

如果文件内容不是unicode编码的,要先以二进制方式打开,读入比特流,再解码。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 字符串 information Informatio attribute download default firefox 解释器 字符串

2015-04-11_000136.jpg (52.83 KB)

2015-04-11_000136.jpg

已有 1 人评分论坛币 收起 理由
路歌 + 780 根据规定进行奖励

总评分: 论坛币 + 780   查看全部评分

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 14:23