Unicode

estándar informáticu pa la codificación, representación y xestión de testu espresáu na mayor parte de sistemes d'escritura

Unicode ye un estándar de codificación de carácter diseñáu pa facilitar el tratamientu informáticu, tresmisión y visualización de testos de múltiples llinguaxes y disciplines téuniques, amás de testos clásicos de llingües muertes. El términu Unicode provién de los trés oxetivos escorríos: universalidá, uniformidá y unicidá.[2]

Ficha de softwareUnicode
Última versión 15.1.0 (, 12 setiembre 2023)
Tipu codificación de caráuteres y coded character set (en) Traducir
Llicencia Unicode® Copyright and Terms of Use (en) Traducir
Más información
Sitiu web Web oficial
Etiqueta de Stack Exchange Stack Exchange
Cambiar los datos en Wikidata
Exemplu de caráuteres Unicode
Caráuter alfabéticu llatín "A" (U+0041).
Sílaba devanágari "Aum" (ॐ) (U+0950).
Ideograma chinu "yue" (月)(U+6708).

Unicode especifica un nome ya identificador numbéricu únicu pa cada caráuter o símbolu, el code point ('puntu de códigu'), amás d'otres informaciones necesaries pal so usu correutu: direicionalidá, mayúscules y otros atributos. Unicode trata los caráuteres alfabéticos, ideográficos y símbolos de forma equivalente, lo que significa que pueden entemecese nun mesmu testu ensin la introducción de marques o caráuteres de control.[3]

Esti estándar ye calteníu pol Unicode Technical Committee (UTC), integráu nel Consorciu Unicode, del que formen parte con distintu grau d'implicación empreses como: Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google o Yahoo, instituciones como la Universidá de Berkeley, y profesionales y académicos a títulu individual.[4] El Unicode Consortium caltién estrecha rellación con ISO/IEC, cola que caltién dende 1991 l'alcuerdu de sincronizar los sos estándares que contienen los mesmos caráuteres y puntos de códigu.[5]

L'establecimientu de Unicode foi un ambiciosu proyeutu pa reemplazar los esquemes de codificación de caráuteres esistentes, munchos de los cualos tán bien llindaos en tamañu y son incompatibles con redolaes plurillingües. Unicode volvióse'l más estensu y completu esquema de codificación de caráuteres, siendo'l dominante na internacionalización y adautación llocal del software informáticu. L'estándar foi implementáu nun númberu considerable de teunoloxíes recién, qu'inclúin XML, Java y sistemes operativos modernos.

La descripción completa del estándar y les tables de caráuteres tán disponibles na páxina web oficial de Unicode [1]. La referencia completa publicar, amás, en forma de llibru impresu cada vez que se lliberar una nueva versión principal. La versión dixital d'esti llibru ta disponible de forma gratuita. Les revisiones y amiestes publicar de forma independiente.

Algame del estándar editar

Unicode inclúi tolos caráuteres d'usu común na actualidá. La versión 5.1 contenía 100 713 caráuteres provenientes d'alfabetos, sistemes ideográficos y coleiciones de símbolos (matemáticos, téunicos, musicales, iconos...). La cifra crez con cada versión.

Unicode inclúi sistemes d'escritura modernu como: árabe, braille, coptu, cirílicu, griegu, sinogramas (hanja coreanu, hanzi chinu y kanji xaponés), silabarios xaponeses (hiragana y katakana), hebréu y llatín; escritures históriques estinguíes, pa propósitos académicos, como por casu: cuneiforme, griegu antiguu, llinial B micénicu, feniciu y rúnicu. Ente los caráuteres non alfabéticos incluyíos en Unicode atópense símbolos musicales y matemáticos, fiches de xuegos como'l dominó, fleches, iconos etc.

Amás, Unicode inclúi los signos diacríticos como caráuteres independientes que pueden ser combinaos con otros caráuteres y dispón de versiones predefinidas de la mayoría de lletres con símbolos diacríticos n'usu na actualidá, como les vocales acentuaes del español.

Unicode ye un estándar en constante evolución y amiéstense nuevos caráuteres de cutio. Refugar ciertos alfabetos, propuestos por distintes razones, como por casu l'alfabetu klingon.[6]

Rellación con otros estándares editar

Como yá s'indicó, Unicode ta sincronizáu col estándar ISO/IEC conocíu como UCS o xuegu de caráuteres universal. Dende un puntu de vista téunicu, inclúi o ye compatible con codificaciones anteriores como ASCII7 o ISO 8859-1, los estándares nacionales ANSI Z39.64, KS X 1001, JIS X 0208, JIS X 0212, JIS X 0213, GB 2312, GB 18030, HKSCS, y CNS 11643, codificaciones particulares de fabricantes de software como Apple, Adobe, Microsoft, IBM, etc. Amás, Unicode reserva espaciu pa fabricantes de software que pueden crear estensiones pal so propiu usu.[7]

Repertoriu de caráuteres editar

L'elementu básicu del estándar Unicode ye'l caráuter. Considérase un caráuter al elementu más pequeñu d'un sistema d'escritura con significáu. L'estándar Unicode codifica los caráuteres esenciales ―grafemes― definiéndolos de forma astracta y dexa la representación visual (tamañu, dimensión, fonte o estilu) al software que lo trate, como procesador de testu o navegador web. Inclúyense lletres, signos diacríticos, caráuteres de puntuación, ideogrames, caráuteres silábicos, caráuteres de control y otros símbolos. Los caráuteres arrexuntar n'alfabetos o sistemes d'escritura. Considérase que son distintos los caráuteres d'alfabetos distintos, anque compartan forma y significación.

Los caráuteres identificar por aciu un númberu o puntu de códigu y el so nome o descripción. Cuando s'asignó un códigu a un caráuter, dizse que dichu caráuter ta codificado. L'espaciu pa códigos tien 1 114 112 posiciones posibles (0x10FFFF). Los puntos de códigu represéntense utilizando notación hexadecimal amestando'l prefixu U+. El valor hexadecimal completar con ceros hasta 4 díxitos hexadecimales cuando ye necesariu; si ye de llargor mayor que 4 díxitos nun s'amiesten ceros.

Tipos de caráuteres editar

 
Distintes versiones del caráuter angstrom, como caráuter (versión preferida), como caráuter con signu diacríticu y como símbolu con forma de lletra.

Los bloques del espaciu de códigos contienen puntos cola siguiente información:[8]

  • Caráuteres gráficos: lletres, signos diacríticos, cifres, caráuteres de puntuación, símbolos y espacios.
  • Caráuteres de formatu: caráuteres invisibles qu'afecten al procesu del testu próximu. Exemplos: U+2028 saltu de llinia, U+2029 saltu de párrafu, U+00A0 espaciu duru, etc.
  • Códigos de control: 65 códigos definíos por compatibilidá con ISO/IEC 2022. Son los caráuteres ente nos rangos [U+0000,U+001F], U+007F y [U+0080..U+009F]. Interpretalos ye responsabilidá de protocolos cimeros.
  • Caráuteres privaos: reservaos pal usu fuera del estándar por fabricantes de software.
  • Caráuteres reservaos: códigos reservaos pal so usu por Unicode. Son posiciones ensin asignar.
  • Puntos de códigu subrogados: Unicode reserva los puntos de códigu d'U+D800 a U+DFFF pal so usu como códigos subrogados en UTF-16, na representación de caráuteres suplementarios.
  • Non caráuteres: son códigos reservaos permanentemente pa usu internu por Unicode. Los dos últimos puntos de cada planu U+FFFE y U+FFFF.
  • Caráuteres refugaos: son caráuteres que se retienen por compatibilidá con versiones anteriores, pero tien d'evitase'l so usu.

Composición de caráuteres y secuencies editar

 
Composición del caráuter "ñ". La primera ye un caráuter independiente, la segunda una n más una virgulilla (n'inglés conocida como tilde) combinable.

Unicode inclúi un mecanismu pa formar caráuteres y asina estender el repertoriu de compatibilidá colos símbolos esistentes. Un caráuter base complementar con marques: signos diacríticos, de puntuación o marcos. El tipu de cada caráuter y los sos atributos definen el papel que pueden xugar nuna combinación. Por esti motivu, puede haber delles opciones que representen el mesmu caráuter. Pa facilitar la compatibilidá con codificaciones anteriores, apúrrense caráuteres precompuestos; na definición de dichos caráuteres faise constar qué caráuteres intervienen na composición.

Un grupu de caráuteres consecutivos, independientemente del so tipu, forma una secuencia. En casu de que delles secuencies representen el mesmu conxuntu de caráuteres esenciales, l'estándar nun define una d'elles como 'correuta', sinón que les considera equivalentes. Pa poder identificar diches equivalencies, Unicode define los mecanismos de equivalencia canónica y de equivalencia de compatibilidá basaos nel llogru de formes normalizaes de les cadenes a comparar.

Repertoriu unificáu chinu, coreanu y xaponés editar

Nel estándar Unicode, los ideogrames d'Asia oriental (popularmente llamaos «caráuteres chinos») denominar «ideogrames han». Estos ideogrames desenvolver en China y fueron afechos por cultures próximes pal so propiu usu.[9][10] Xapón, Corea y Vietnam desenvolvieron los sos propios sistemes alfabéticos o silábicos pa usar en combinación colos símbolos chinos: hiragana y katakana (en Xapón), hangul (en Corea) y yi (en Vietnam). La evolución natural de los sistemes d'escritura y los distintos momentos d'entrada de los caráuteres nes distintes cultures marcaron diferencies nos ideogrames utilizaos. Unicode considera les distintes versiones de los ideogrames como variantes d'un mesmu caráuter astractu, esto ye, como resultáu de l'aplicación d'un tipu de lletra distinta en cada casu y considera les variantes nacionales como pertenecientes a un mesmu sistema d'escritura. La versión orixinal del estándar desenvolver a partir de los estándares industriales esistentes nos países afeutaos.

L'organismu encargáu de desenvolver el repertoriu de caráuteres ye'l Ideographic Rapporteur Group (IRG). IRG ye un grupu de trabayu integráu en ISO/IEC JTC1/SC2/WG2, incluyendo a China, Ḥong Kong, Macáu, Taipei Computer Association, Singapur, Xapón, Corea del Sur, Corea del Norte, Vietnam y Estaos Xuníos d'América.[9]

La base de datos de caráuteres CJK denominar Unihan y contién, amás, información auxiliar sobre significáu, conversiones, datos necesarios pa utilizalos nos distintos llinguaxes que los utilicen. De siguío amuésense los bloques que describen esti repertoriu. IRG define los caráuteres de los trés grupos unificaos, los siguientes dos grupos contienen caráuteres pa compatibilidá con estándares anteriores.

Bloque Rangu de códigos Comentarios
Ideogrames unificaos CJK 4Y00-9FFF Ideogrames d'usu común. Tamañu de códigu: 2 bytes.

3400-4DFF

Ideogrames d'usu pocu habitual. Tamañu de códigu: 2 bytes.
Ideogrames unificaos CJK - Estensión B 20000-2A6DF Ideogrames d'usu pocu habitual y históricos.

F900-FAFF

Duplicaos, variantes unificables y caráuteres corporativos. Tamañu de códigu: 2 bytes.

2F800-2FA1F

Variantes unificables.

Secuencies de descripción ideográfica editar

Almítese que nunca se podrá rematar la xera d'incluyir ideogrames nel estándar debíu, principalmente, a que la creación de nuevos ideogrames sigue. Con cuenta de suplir eventuales faltes, Unicode ufierta un mecanismu que dexa la representación de los símbolos que falten denomináu «secuencies de descripción ideográfica». Basar en que na práutica, la totalidá de los ideogrames puede descomponese en pieces más pequeñes que, de la mesma, son ideogrames. Anque sía posible la representación d'un símbolu por aciu una secuencia, l'estándar especifica que siempres qu'esista una versión codificada el so usu tien de ser preferente. Nun hai un métodu pa la descomposición canónica» d'ideogrames nin algoritmos d'equivalencia polo que les operaciones sobre'l testu, como busca o ordenación, pueden fallar.

Unicode define 12 caráuteres distintos pa la descripción d'ideogrames representando distintes posibilidaes de combinación espacial d'otros caráuteres han.

Elementos del estándar Unicode editar

Principios de diseñu editar

L'estándar foi diseñáu colos siguientes oxetivos:

  • Universalidá: Un repertoriu abondo ampliu qu'albergue a tolos caráuteres probables nel intercambiu de testu multlingüe.
  • Eficiencia: Les secuencies xeneraes tienen de ser fáciles de tratar.
  • Non ambigüedá: Un códigu dau siempres representa'l mesmu caráuter.

Base de datos de caráuteres editar

El conxuntu de caráuteres codificados por Unicode, ye la UCD (unicode character database: base de datos de caráuteres Unicode). Amás de nome y puntu de códigu, inclúi más información: alfabetu al que pertenez, nome, clasificación, mayúscules, orientación y otres formes d'usu, variantes estandarizadas, regles de combinación, etc.

Formalmente la base de datos estremar en planos y estos de la mesma en árees y bloques. Con esceiciones, los caráuteres codificados arrexuntar nel espaciu de códigos siguiendo categoríes como alfabetu o sistema d'escritura, de forma que caráuteres rellacionaos atópense cerca en tables de codificación.

Planos editar

Por conveniencia estremóse l'espaciu de códigos en grandes grupos denominaos planos. Cada planu contién un máximu de 65 535 caráuteres. Dau un puntu de códigu espresáu n'hexadecimal, los 4 últimos díxitos determinen la posición del caráuter nel planu.

  • Planu básicu multillingüe: BMP o planu 0. Contién la mayor parte de los alfabetos modernos, incluyendo los caráuteres más comunes del sistema CJK, otros caráuteres históricos o pocu habituales y 64 reservaes pa usu priváu.
  • Planu suplementariu multillingüe: SMP o planu 1. Alfabetos históricos de menor usu y sistemes d'usu téunicu o otros usos.
  • Planu suplementariu ideográficu: SIP o planu 2. Contién los caráuteres del sistema CJK que nun s'inclúin nel planu 0. La mayoría son caráuteres bien raros o d'interés históricu.
  • Planu de propósitu especial: SSP o planu 14. Área pa caráuteres de control que nun s'introducieron nel planu 0.
  • Planos d'usu priváu: planos 15 y 16. Reservaos pa usu priváu por fabricantes de software.

Árees y bloques editar

Los distintos planos estremar n'árees de direicionamientu en función de los tipos xenerales qu'inclúin. Esta división ye convencional, non reglada y puede variar col tiempu. Les árees estrémense, de la mesma, en bloques. Los bloques tán definíos normativamente y son rangos consecutivos del espaciu de códigos. Los bloques utilizar pa formar les tables impreses de carácter pero nun tienen de tomar se como definiciones de grupos significativos de caráuteres.

Tratamientu de la información editar

Formes de codificación editar

Los puntos de códigu de Unicode identificar por un númberu enteru. Según la so arquiteutura, un ordenador va utilizar unidaes de 8, 16 o 32 bits pa representar dichos enteros. Les formes de codificación de Unicode reglamentan la forma en que los puntos de códigu van tresformar n'unidaes tratables pol ordenador.

Unicode define trés formes de codificación sol nome UTF (Unicode transformation format: formatu de tresformamientu Unicode):[11]

  • UTF-8: codificación empobinada a byte con símbolos de llargor variable.
  • UTF-16: codificación de 16 bits de llargor variable optimizada pa la representación del planu básicu multillingüe (BMP).
  • UTF-32: codificación de 32 bits de llargor fixu, y la más senciella de los trés.

Les formes de codificación llindar a describir la manera en que se representen los puntos de códigu en formatu intelixible pola máquina. A partir de les 3 formes identificaes defínense 7 esquemes de codificación.

Esquemes de codificación editar

Los esquemes de codificación traten de la forma en que se serializa la información codificada.[11] La seguridá nos intercambios d'información ente sistemes heteroxéneos rique la implementación de sistemes que dexen determinar l'orde correutu de los bits y bytes y garantizar que la reconstrucción de la información ye correuta. Una diferencia fundamental ente procesador ye l'orde de disposición de los bytes en pallabres de 16 y 32 bits, lo que se denomina endianness. Los esquemes de codificación tienen de garantizar que los estremos d'una comunicación saben cómo interpretar la información recibida. A partir de les 3 formes de codificación defínense 7 esquemes. A pesar de que comparten nomes, nun tien de confundir se esquemes y formes de codificación.

Esquema de codificación Endianness Almite BOM
UTF-8

UTF-16 Big-endian o Little-endian

Big-endian

Non
UTF-16-Y Little-endian Non
UTF-32 Big-endian o Little-endian

Big-endian

Non
UTF-32-Y Little-endian Non

Unicode define una marca especial, la marca d'orde de bytes (BOM, Byte Order Mark), al entamu d'un ficheru o una comunicación pa faer esplícita la ordenación de bytes. Cuando un protocolu cimeru especifica l'orde de bytes, la marca nun ye necesaria y puede omitise dando llugar a los esquemes de la llista anterior con sufixu BE o -Y. Nos esquemes UTF-16 y UTF-32, qu'almiten BOM, si esti nun s'especifica asumir que la ordenación de bytes ye big-endian.

La unidá de codificación en UTF-8 ye'l byte polo que nun precisa una indicación d'orde de byte. L'estándar nin rique nin encamienta l'usu de BOM, pero almitir como marca de que'l testu ye Unicode o como resultáu de la conversión d'otros esquemes.

Historia editar

El proyeutu Unicode empecipiar a finales de 1987, tres conversaciones ente Joe Becker, Lee Collins y Mark Davis (inxenieros de les empreses Apple y Xerox).[12] Como resultáu de la so collaboración, n'agostu de 1988 publicóse'l primer borrador de Unicode sol nome de Unicode88.[13] Esta primer versión, con códigos de 16 bits, publicóse asumiendo que solo se codificarían los caráuteres necesarios pal usu modernu.

Mientres l'añu 1989 el trabayu siguió cola adición de collaboradores d'otres compañíes como Microsoft o Sun Microsystems. El Consorciu Unicode formóse'l 3 de febreru de 1991, y n'ochobre de 1991 publicóse la primer versión del estándar. La segunda versión, incluyendo escritura ideográfico han publicar en xunu de 1992. De siguío amuésase una tabla coles distintes versiones del Estándar Unicode colos sos amiestes o cambeos más importantes.

Versión Fecha

Publicación

Edición ISO/IEC 10646 acomuñada

Escritures

Caráuteres
# Amiestes notables
1.0 ochobre de 1991 ISBN 0-201-56788-1 (Vol.1). 24 7161 El repertoriu inicial cubre los alfabetos: árabe, armeniu, bengalí, bopomofo, cirílicu, devanágari, xeorxanu, griegu/coptu, guyaratí, gurmukhi, hangul, hebréu, hiragana, kannada, katakana, lao, llatín, malayalam, oriya, tamil, télugu, thai, y tibetanu.[14]
1.0.1 xunu de 1992 ISBN 0-201-60845-6 (Vol.2). 25 28 359 Definíu'l primer conxuntu de 20 902 ideogrames CJK unificaos.[14]
1.1 xunu de 1993 ISO/IEC 10646-1:1993 24 34 233 Amiéstense 4306 caráuteres hangul, más al conxuntu orixinal de 2350. Esaníciase l'alfabetu tibetanu.[14]
2.0 xunetu de 1996 ISBN 0-201-48345-9 ISO/IEC 10646-1:1993 con enmiendes 5, 6 y 7 25 38 950 Esaniciáu'l conxuntu orixinal de caráuteres hangul; amiéstase un nuevu conxuntu de 11 172 caráuteres hangul nun nuevu allugamientu. Reincorpórase l'alfabetu tibetanu nun nuevu allugamientu y con un xuegu de caráuteres distintu. Defínese'l sistema de códigos subrogados y créanse los planos 15 y 16 de caráuteres pa usu priváu.[14]
2.1 mayu de 1998 ISO/IEC 10646-1:1993 con enmiendes 5, 6 y 7, y dos caráuteres de la enmienda 18 25 38 952 Amiéstase'l símbolu del euru.[14]
3.0 setiembre de 1999 ISBN 0-201-61633-5 ISO/IEC 10646-1:2000 38 49 259 Ideogrames cheroqui. Escritures etíope, jemer, mongol, Myanmar, ogham, alfabetu rúnicu, cingalés, siríacu, thaana, silabariu unificáu de los indíxenes canadienses, y yi amás de los patrones braille.[14]
3.1 marzu de 2001 ISO/IEC 10646-1:2000

ISO/IEC 10646-2:2001

41 94 205 Amiéstense los alfabetos deseret, góticu y etruscu, y los símbolos de notación musical moderna, música bizantina, y 42 711 ideogrames de CJK unificáu.[15]
3.2 marzu de 2002 ISO/IEC 10646-1:2000 cola enmienda 1

ISO/IEC 10646-2:2001

45 95 221 Amestaes les escritures filipines: buhid, hanunó'o, tagalu, y tagbanwa.[15]
4.0 abril de 2003 ISBN 0-321-18578-1 ISO/IEC 10646:2003 52 96 447 Amiéstase'l silabariu chipriota, limbu, llinial B, osmanya, shaviano, tai -y, y ugarítico, y los hexagramas I Ching.[15]
4.1 marzu de 2005 ISO/IEC 10646:2003 con enmienda 1 59 97 720 Agregaos buginés, glagolíticu, kharoshthi, new tai lue, persa antiguu, syloti nagri, y nifinagh. Dixébrase'l coptu del alfabetu griegu. Símbolos griegos antiguos pa música y numberación.[15]
5.0 xunetu de 2006 ISBN 0-321-48091-0 ISO/IEC 10646:2003 con enmiendes 1 y 2 y cuatro carácter de la enmienda 3 64 99 089 Agregaos: balinés, cuneiforme, n'ko (mandé), phags-pa, y feniciu.[15]
5.1 abril de 2008 ISO/IEC 10646:2003 más enmiendes 1, 2, 3 y 4 75 100 713 Agregaos: escritura caria, cham, kayah li, escritura lepcha, alfabetu liciu, alfabetu trepo, alfabetu ol chiki, rejang, saurashtra, sundanés, y el silabariu vai. Los xeroglíficos del discu de Festos, fiches de mahjong y de dominó. Amiestes importantes pal birmanu, lletres y abreviatures d'amanuense utilizaes en manuscritos medievales y la adición de la ß mayúscula.[16]
5.2 ochobre de 2009 ISBN 978-1-936213-00-9 ISO/IEC 10646:2003 más enmiendes de 1 a 6 90 107 361 Agregaos: bamúm, javanés, lisu, meetei mayek, samaritanu, tai tham, y tai viet. Amplióse'l devanágari cola adición del alfabetu sánscritu. Ampliaciones importantes pal abkhasu, el silabariu unificáu de los indíxenes canadianos, coptu, khamti shan, malayu, myanmar. Tamién s'amiesten símbolos y caráuteres históricos como los xeroglíficos exipcios de Gardiner, araméu imperial, avéstico, kaithi, antiguu árabe del Sur y turcu antiguu.[17]
6.0 ochobre de 2010 ISBN 978-1-936213-01-6 ISO/IEC 10646:2011 93 109 449

La versión 6.0 ye la primer versión principal del estándar publicada puramente en soporte electrónicu. Amestaos mandeo, batak y brahmi, ampliaciones de llinguaxes africanos como tifinagh, etíope y bamúm. Otres amiestes importantes son: 222 ideogrames CJK, 1000 símbolos incluyendo los pictogrames emoji, el nuevu símbolu oficial pa la rupia y símbolos alquímicos amás d'ampliaciones de los atributos de los caráuteres y otros cambeos normativos y algorítmicas.[18]

Ver tamién editar

Referencies editar

  1. URL de la referencia: https://www.unicode.org/versions/Unicode15.1.0/.
  2. «Resumen históricu». Unicode, Inc.. Consultáu'l 21 de mayu de 2009.
  3. «About the Unicode Standard». Unicode, Inc.. Consultáu'l 21 de mayu de 2009.
  4. «The Unicode Consortium Members». Unicode, Inc.. Consultáu'l 15 de mayu de 2012.
  5. The Unicode Consortium (ochobre de 2006). «Appendix C. Relationship to ISO/IEC10646», Julie D. Allen, Joe Becker (et al.): Unicode 5.0 standard (n'inglés). Addisson-Wesley. ISBN 0-321-48091-0.
  6. «Archive of Notices of Non-Approval». Unicode, Inc.. Consultáu'l 21 de mayu de 2009.
  7. The Unicode Consortium (ochobre de 2006). Julie D. Allen, Joe Becker (et al.): Unicode 5.9 standard (n'inglés). Addisson-Wesley. ISBN 0-321-48091-0.
  8. The Unicode Consortium (ochobre de 2006). «16. Special Areas and Format Characters», Julie D. Allen, Joe Becker (et al.): Unicode 5.0 standard (n'inglés). Addisson-Wesley. ISBN 0-321-48091-0.
  9. 9,0 9,1 «On the Encoding of Latin, Greek, Cyrillic, and Han».
  10. «12. East Asian Scripts», Unicode 5.0 Standard.
  11. 11,0 11,1 The Unicode Consortium (ochobre de 2006). «2.5 Encoding Forms», Julie D. Allen, Joe Becker (et al.): Unicode 5.0 standard (n'inglés). Addisson-Wesley. ISBN 0-321-48091-0.
  12. «Chronology of Unicode Version 1.0».
  13. Becker, Joseph D. (10 de setiembre) (n'inglés). Unicode 88. Unicode Consortium.  páxs. 10. http://www.unicode.org/history/unicode88.pdf. Consultáu'l 29 de mayu de 2009. 
  14. 14,0 14,1 14,2 14,3 14,4 14,5 The Unicode Consortium, Joan Aliprand, et al. (xineru de 2000). «Appendix D. Changes from Unicode Version 2.0», The Unicode Standard. Version 3.0 standard (n'Inglés). Addisson-Wesley. ISBN 0-201-61633-5.
  15. 15,0 15,1 15,2 15,3 15,4 The Unicode Consortium (ochobre de 2006). «Appendix D. Changes from previous versions», Julie D. Allen, Joe Becker (et al.): Unicode 5.0 standard (n'Inglés). Addisson-Wesley. ISBN 0-321-48091-0.
  16. Archivu de datos de Unicode 5.1
  17. Unicode 5.2.0
  18. Unicode 6.0.0

Enllaces esternos editar