Python 的编码，关于 Encode, Decode 的简单原则

Python 中 encoding 的处理其实已经很简单了，根据我这近一个月来用python的经验，有一个简单的原则可以作为参考。

基于python 2.7

类型要清楚， unicode 不是 str
decode 之后的结果都是 unicode
encode 之后的结果都是 str，其编码是你encode的参数
输出一律用 str
存取一律用 unicode
应用入口重设默认编码 sys.setdefaultencoding('utf-8') （记得需要reload(sys)）

简单按照这个原则，编码基本上就不会错了。

举个例子，有个GBK编码的文件 name.txt，每行一个人名，现在要处理

    for line in open('name.txt').readlines():
      print line # 这时候 line 都是 gbk 的 
      str x = line.decode('gbk') # 转成 unicode 
              #(建议这么做，原则：但凡输入的，一律转换成unicode后处理)
      print x # 输出 unicode (不建议这么做)
      print x.encode('utf-8') # 输出 str (建议这么做，原则：但凡输出，一定编码成str)
      store_to_db(x) # 这时候存的都是unicode 
      my_str = x.encode('big5') # 转成 big5了 
      print m_str # 输出的是 big5 的 str

此外，encode 的时候不一定会成功，这时候会raise一个exception，这是因为 encode 还有一个参数用来控制encode失败后的处理，default是strict，也就是抛异常。

你可以用 encode(src, 'replace') 来处理，replace就表示碰到转不了的，用问号'?'来代替，而不是抛异常。

具体用法查文档。

同样，输出的时候，输出流也需要有编码。比如stdout默认是ascii的，而你要输出unicode，就需要得到一个基于unicode的输出流，output = codecs.getwriter('utf-8')(sys.stdout)

– END

Explorer. Dream. Discover.

Python 的编码，关于 Encode, Decode 的简单原则

Samuel Chen

Wuhan, China