jueves, 30 de octubre de 2008

Encodings: Strings "Windows-1252" en python

Me topé en:
http://noticias.iglesia.cl/noticia.php?id=7946
con un texto que tenía un guión misterioso que en el browser se ve como un guión un poco más largo que lo normal.
Descubrí que ese guión venía encodeado en "Windows-1252".

Al obtener el texto de esa página en un string en python, me fue deseable reemplazar ese guión por el guión normal.

Para ello, tuve primero que leer bien el string recibido desde la web:
html = html.decode('Windows-1252')

Luego, descubrir el código Unicode de ese caracter raro, usando la consola de python:
>>> u"–"
u'\u2013'


Finalmente, reemplazar ese guión por el guión normal:
html = html.replace(u'\u2013',"-")

No hay comentarios: