Noções Básicas de Codificações Multibyte Japonesas

Os caracteres japoneses só podem ser representados por codificações multibyte, e vários padrões de codificação são usados dependendo da plataforma e da finalidade do texto. Para piorar a situação, esses padrões de codificação diferem um pouco um do outro. Para criar uma aplicação web que possa ser usada em um ambiente japonês, essas complexidades devem ser consideradas para garantir que as codificações de caracteres adequadas sejam usadas.

  • O armazenamento de um caractere pode ter até seis bytes.
  • A maioria dos caracteres multibyte japoneses aparece com o dobro da largura dos caracteres de byte único. Esses caracteres são chamados "zen-kaku" em japonês, que significa "largura total". Outros caracteres mais estreitos, são chamados "han-kaku", que significa "meia largura". As propriedades gráficas dos caracteres, no entanto, dependem das fontes usadas para exibi-los.
  • Algumas codificações de caracteres usam sequências de deslocamento (escape) definidas na ISO-2022 para alternar o mapa de código da área de código específica (00h a 7fh).
  • A ISO-2022-JP deve ser usada no SMTP/NNTP, e cabeçalhos e entidades devem ser recodificados de acordo com os requisitos da RFC. Embora esses não sejam requisitos, ainda é uma boa ideia porque vários agentes de usuário populares não podem reconhecer nenhum outro método de codificação.
  • As páginas web criadas para serviços de telefonia móvel, como » i-mode ou » EZweb devem usar Shift_JIS.
  • Emoji usados em serviços de telefonia móvel, como » i-mode ou » EZweb são suportados.

add a note add a note

User Contributed Notes 1 note

up
-14
gullevek at gullevek dot org
14 years ago
For ISO-2022-JP encoding. If you convert data into this encoding it is highly recommended you use ISO-2022-JP-MS for the extended character set, eg the 1 in a circle ①.

For the mail header on the other hand you have to use ISO-2022-JP *without* the -MS extension.
To Top