Unicode é um
padrão que permite aos
computadores representar e manipular, de forma consistente,
texto de qualquer
sistema de escrita existente. Publicado no livro
The Unicode Standard, o padrão consiste de pouco mais de 107 mil
caracteres, um conjunto de
diagramas de códigos para referência visual, uma
metodologia para codificação e um conjunto de codificações padrões de caracteres, uma
enumeração de propriedades de caracteres como
caixa alta e
caixa baixa, um conjunto de
arquivos de computador com dados de referência, além de regras para normalização, decomposição,
ordenação alfabética e
renderização.
Atualmente, é promovido e desenvolvido pela
Unicode Consortium, uma
organização sem fins lucrativos que coordena o padrão, e que possui o objetivo de um dia substituir esquemas de codificação de caractere existentes pelo Unicode e pelos esquemas padronizados de transformação Unicode (chamado
Unicode Transformation Format, ou
UTF). Seu desenvolvimento é feito em conjunto com a
Organização Internacional para Padronização (ISO) e compartilha o repertório de caracteres com o
ISO/IEC 10646: o Conjunto Universal de Caracteres (
UCS). Ambos funcionam equivalentemente como codificadores de caracteres, mas o padrão Unicode fornece muito mais informação para implementadores, cobrindo em detalhes tópicos como ordenação alfabética e visualização.