UTF-8 (8-
bit Unicode Transformation Format) es un formato de codificación de caracteres
Unicode e
ISO 10646 utilizando símbolos de longitud variable. UTF-8 fue creado por
Robert C. Pike y
Kenneth L. Thompson. Está definido como estándar por la RFC 3629 de la
Internet Engineering Task Force (IETF). Actualmente es una de las tres posibilidades de codificación reconocidas por Unicode y lenguajes web, o cuatro en
ISO 10646. Sus características principales son:
- Es capaz de representar cualquier carácter Unicode.
- Usa símbolos de longitud variable (de 1 a 4 bytes por carácter Unicode).
- Incluye la especificación US-ASCII de 7 bits, por lo que cualquier mensaje ASCII se representa sin cambios.
- Incluye sincronía. Es posible determinar el inicio de cada símbolo sin reiniciar la lectura desde el principio de la comunicación.
- No superposición. Los conjuntos de valores que puede tomar cada byte de un carácter multibyte, son disjuntos, por lo que no es posible confundirlos entre sí.