「Unicode」の版間の差分

2011年3月19日 (土) 12:28時点における版

Unicode（ユニコード）とは、古今東西の全ての文字を１つの文字コードセットに入れようという試みである。マイクロソフトやジャストシステム等が参加するユニコードコンソーシアムにより作られている。 WindowsやニンテンドーDS等にも採用され、今後の世界標準になる見込みである。 UnicodeでのコードポイントはU+XXXXのように表す。

主な文字

U+0000～U+007F 基本ラテン

アスキーと同じ。英語はこれだけで事足りる。

U+0080～U+00FF ラテン１補助

ドイツ語、スペイン語、イタリア語等の西側の言語はこれで事足りる。フランス語は"Œ"が足りない。

U+0100～U+017F ラテン拡張Ａ

フランス語、ポーランド語等多くの言語がここまでで事足りる。

U+0180～U+024F ラテン拡張Ｂ

中国語のピンインの第３声がここで登場。尤も結合文字を使うのが普通。

U+0250～U+02AF ＩＰＡ拡張

中学生でも知ってる発音記号がここで登場。

U+0900～U+097F デーヴァナーガリー文字

U+0950 ॐ オウム真理教のマーク。

U+1100～U+11FF ハングル字母

ハングルは１つの文字を初声（子音）＋中声（母音）［＋終声（子音）］を表す高々３つの部品（字母という）の組み合わせで表す。ここには現在では使われない字母も入って、組み合わさって表示するこになっているのだが、完全に実装したシステムはあんのか？

U+2000～U+206F 一般句読点

スペースやハイフンだけでも種類が沢山。「かける様」の文字列はlivedoor したらば掲示板の全体NGワードになってるので、愚民社会を考える掲示板ではNGワードを回避するのにここの見えない文字達が利用される。

「かける様」の中に入れられることのある主な文字

U+200C ZERO WIDTH NON-JOINER 両側のアラビア文字を続かない形にする。この文字自体は見えない。
U+200D ZERO WIDTH JOINER 両側のアラビア文字を続く形にする。この文字自体は見えない。

以下はライブドアに対策されているので現在は利用不可。

U+200B ZERO WIDTH SPACE 幅無しでジャスティフィケーションにも影響しないスペース。本来は単語途中で改行させたい時に入れる。
U+FEFF ZERO WIDTH NO-BREAK SPACE 幅無しでここで改行もしないスペース。本来はテキストファイルの文頭において、リトルエンディアンかビッグエンディアンかを判断させる為にある。U+FFFEは文字ではないことになっているので、こっちが出て来たら逆に解釈すれば良いという事になる。

使用例

入力：救世主かける&#8204;様万歳！！
表示：救世主かける‌様万歳！！

U+2100～U+214F 文字様記号

ℂ(U+2102)、ℝ(U+211D)や、文字とは別に単位の記号もある（気付いてないだけかも知れんが、使い分けされてるのを見たことない）。

U+2600～U+26FF 様々な記号

☢(U+2622)、☣(U+2623)、☭(U+262D)、☺(U+263A)や、天気、八卦、十二星座、チェス等の記号が多数。

U+3040～U+309F ひらがな

合字ゟ（より）。

U+30A0～U+30FF カタカナ

合字ヿ（コト）。またヴァ行を表すのに使われたことがある、ワ行に濁音が付いたのもある。

U+31F0～U+31FF カタカナ拡張

アイヌ語に使う小文字のカタカナ１６種類。

U+4E00～U+9FFF CJK統合漢字

中日韓(CJK)の漢字をごっちゃにして、よく似た文字は１つに統合して、部首順に並べたもの。この統合が曲者で、国によって字形が違う漢字でもよく似た文字は統合してしまった（例えば「骨」は中国では鏡文字）為、プレーンテキストでは中日韓の漢字を混ぜられないようになってしまった。それ故日本で最も評判が悪いのがここ。欧米人に言わせれば、「こんだけ多大な領域を割り当ててやってんのに極東の連中はまだ満足せんのかい」みたいな感覚なんでしょうかねえ。また「浅」は統合しても「桟」と「栈」は統合されていないなどミスも多発している。

U+AC00～U+D7FF ハングル音節

現在使われるハングル字母は、初声１９種類、中声２１種類、終声２７種類。それらが組み合わさった形で論理的にあり得る全ての文字１９×２１×（２７＋１）＝１１１７２文字を収録している。が、実際はこれの半分も使われない。

U+D800～U+DFFF サロゲート

当初Unicodeは16ビット65536文字の中に全部押し込めようとしたが、勿論その計画は破綻し、ここの2048文字を組み合わせて1024*1024=1048576文字を新たに表現することにした。

U+E000～U+F8FF 私用領域

外字もここ。

U+F900～U+FAFF CJK互換漢字

本来は統合対称だが、既存の文字コードで別扱いされている文字は、互換の為こっちに押し込められる。

U+FB50～U+FDFF アラビア表示形Ａ

１つの特別な単語の表示形も入っていたりする。何故かここについて触れている日本語のページが全然出て来ないのでここで一部紹介。

U+FDF2 (الله/アッラーフ) アッラー。専用のコードポイントがあるとか流石神。
U+FDF3 (اكبر/アクバル) 偉大。
U+FDF4 (مهمد/ムハンマド) ムハンマド。

これなんかもはや１つの文章。

U+FDFA (صلى الله عليه وسلم/サッラッラーフ・アライヒ・ワ・サッラム) 彼にアッラーの祝福と平安あれ；ムハンマドの後に毎回添える。
U+FDFD (بسم الله الرحمن الرحيم/ビスミッラーヒッラフマーニッラヒーム) 慈悲遍く慈愛深きアッラーの御名において；クルアーンの冒頭。

U+FE70～U+FEFF アラビア表示形Ｂ

ご存知アラビア文字は独立、語頭、語中、語尾によって形が変わるので、それぞれの形がここに入っている。悪魔で表示形なので、実際にこっちを入力する訳ではない。

U+FFF0～U+FFFF 特殊文字

悪名高きルビタグもあるが、実装してるシステムあんのか？

収録されなかった主な文字

クリンゴン文字
神代文字
BETTY BOOP
将軍様専用ハングル

リンタ

Unicode Consortium

@@ 1行目: / 1行目: @@
-'''Unicode'''（ユニコード）とは、全世界共通の文字コードである。
+'''Unicode'''（ユニコード）とは、古今東西の全ての文字を１つの文字コードセットに入れようという試みである。
+マイクロソフトやジャストシステム等が参加するユニコードコンソーシアムにより作られている。
-==概要==
+Windowsや[[ニンテンドーDS]]等にも採用され、今後の世界標準になる見込みである。
-漢字はCJK統合漢字と言って、中日韓で微妙に形が違う漢字は１つのコードポイントに統合されている訳だが、「浅」は統合しても「桟」と「栈」は統合しないとかミスが多発している、どうすんの。また、「CJK」と極東を一括りにすることによって一部の人達が怒ってきそうである。漢字なんて元々中国からのパケリなのにね（＾ДД＾）
+UnicodeでのコードポイントはU+XXXXのように表す。
-最近は線文字Bとか楔形文字とかも追加されていて、昔なのか現代なのか分からなくなって来ている。ファイストスの円盤も追加予定（未解読だろ）、神代文字は却下された（当たり前）。
-==主な（？）利用方法==
-「かける様」の文字列は[[したらば掲示板]]の全体NGワードになってる訳だが、色んな幅のスペースや見えない文字とかがUnicodeには天こ盛りなので、それらの文字を「[[かける様]]」の中に入れることによって外見は何も変わりなくNGワードを回避することが出来る。但し名前やスレのタイトルには使えない。
 ==主な文字==
-===U+200C &amp;#8204; 幅無しノンジョイナー===
+===U+0000～U+007F 基本ラテン===
-本来の使い方は、隣接するアラビア文字をくっつかなくする。
+アスキーと同じ。英語はこれだけで事足りる。
+===U+0080～U+00FF ラテン１補助===
-===U+200D &amp;#8205; 幅無しジョイナー===
+ドイツ語、スペイン語、イタリア語等の西側の言語はこれで事足りる。フランス語は"Œ"が足りない。
-本来の使い方は、隣接するアラビア文字をくっつく形にする。
+===U+0100～U+017F ラテン拡張Ａ===
+フランス語、ポーランド語等多くの言語がここまでで事足りる。
-===[[ライブドア]]に対策され現在は使用不可===
+===U+0180～U+024F ラテン拡張Ｂ===
-*U+2009 &amp;#8201; 細いスペース
+中国語のピンインの第３声がここで登場。尤も結合文字を使うのが普通。
-*U+200A &amp;#8202; 極細スペース
+===U+0250～U+02AF ＩＰＡ拡張===
-*U+200B &amp;#8203; 幅無しスペース
+中学生でも知ってる発音記号がここで登場。
-本来の使い方は、長い単語の中に入れておくと、行がはみ出した時にそこで改行してくれる。
+===U+0900～U+097F デーヴァナーガリー文字===
+*U+0950 ॐ [[オウム真理教]]のマーク。
+===U+1100～U+11FF ハングル字母===
+ハングルは１つの文字を初声（子音）＋中声（母音）［＋終声（子音）］を表す高々３つの部品（字母という）の組み合わせで表す。
+ここには現在では使われない字母も入って、組み合わさって表示するこになっているのだが、完全に実装したシステムはあんのか？
+===U+2000～U+206F 一般句読点===
+スペースやハイフンだけでも種類が沢山。
+「かける様」の文字列は[[livedoor したらば掲示板]]の全体NGワードになってるので、
+[[愚民社会を考える掲示板]]ではNGワードを回避するのにここの見えない文字達が利用される。
+====「かける様」の中に入れられることのある主な文字====
+*U+200C ZERO WIDTH NON-JOINER 両側のアラビア文字を続かない形にする。この文字自体は見えない。
+*U+200D ZERO WIDTH JOINER 両側のアラビア文字を続く形にする。この文字自体は見えない。
+以下は[[ライブドア]]に対策されているので現在は利用不可。
+*U+200B ZERO WIDTH SPACE 幅無しでジャスティフィケーションにも影響しないスペース。本来は単語途中で改行させたい時に入れる。
+*U+FEFF ZERO WIDTH NO-BREAK SPACE 幅無しでここで改行もしないスペース。本来はテキストファイルの文頭において、リトルエンディアンかビッグエンディアンかを判断させる為にある。U+FFFEは文字ではないことになっているので、こっちが出て来たら逆に解釈すれば良いという事になる。
+====使用例====
+ 入力：救世主かける&amp;#8204;様万歳！！
+ 表示：救世主かける‌様万歳！！
+===U+2100～U+214F 文字様記号===
+ℂ(U+2102)、ℝ(U+211D)や、文字とは別に単位の記号もある（気付いてないだけかも知れんが、使い分けされてるのを見たことない）。
+===U+2600～U+26FF 様々な記号===
+☢(U+2622)、☣(U+2623)、☭(U+262D)、☺(U+263A)や、天気、八卦、十二星座、チェス等の記号が多数。
+===U+3040～U+309F ひらがな===
+合字ゟ（より）。
+===U+30A0～U+30FF カタカナ===
+合字ヿ（コト）。またヴァ行を表すのに使われたことがある、ワ行に濁音が付いたのもある。
+===U+31F0～U+31FF カタカナ拡張===
+アイヌ語に使う小文字のカタカナ１６種類。
+===U+4E00～U+9FFF CJK統合漢字===
+中日韓(CJK)の漢字をごっちゃにして、よく似た文字は１つに統合して、部首順に並べたもの。
+この統合が曲者で、国によって字形が違う漢字でもよく似た文字は統合してしまった（例えば「骨」は中国では鏡文字）為、
+プレーンテキストでは中日韓の漢字を混ぜられないようになってしまった。それ故日本で最も評判が悪いのがここ。
+欧米人に言わせれば、「こんだけ多大な領域を割り当ててやってんのに極東の連中はまだ満足せんのかい」みたいな感覚なんでしょうかねえ。
+また「浅」は統合しても「桟」と「栈」は統合されていないなどミスも多発している。
+===U+AC00～U+D7FF ハングル音節===
+現在使われるハングル字母は、初声１９種類、中声２１種類、終声２７種類。
+それらが組み合わさった形で論理的にあり得る全ての文字１９×２１×（２７＋１）＝１１１７２文字を収録している。
+が、実際はこれの半分も使われない。
+===U+D800～U+DFFF サロゲート===
+当初Unicodeは16ビット65536文字の中に全部押し込めようとしたが、勿論その計画は破綻し、
+ここの2048文字を組み合わせて1024*1024=1048576文字を新たに表現することにした。
+===U+E000～U+F8FF 私用領域===
+外字もここ。
+===U+F900～U+FAFF CJK互換漢字===
+本来は統合対称だが、既存の文字コードで別扱いされている文字は、互換の為こっちに押し込められる。
+===U+FB50～U+FDFF アラビア表示形Ａ===
+１つの特別な単語の表示形も入っていたりする。何故かここについて触れている日本語のページが全然出て来ないのでここで一部紹介。
+*U+FDF2 (الله/アッラーフ) アッラー。専用のコードポイントがあるとか流石神。
+*U+FDF3 (اكبر/アクバル) 偉大。
+*U+FDF4 (مهمد/ムハンマド) ムハンマド。
+これなんかもはや１つの文章。
+*U+FDFA (صلى الله عليه وسلم/サッラッラーフ・アライヒ・ワ・サッラム) 彼にアッラーの祝福と平安あれ；ムハンマドの後に毎回添える。
+*U+FDFD (بسم الله الرحمن الرحيم/ビスミッラーヒッラフマーニッラヒーム) 慈悲遍く慈愛深きアッラーの御名において；クルアーンの冒頭。
+===U+FE70～U+FEFF アラビア表示形Ｂ===
+ご存知アラビア文字は独立、語頭、語中、語尾によって形が変わるので、それぞれの形がここに入っている。
+悪魔で表示形なので、実際にこっちを入力する訳ではない。
+===U+FFF0～U+FFFF 特殊文字===
+悪名高きルビタグもあるが、実装してるシステムあんのか？
-*U+FEFF &amp;#65279; 幅無し改行しないスペース
+==収録されなかった主な文字==
-意味無いやないか、と言ってはいけない。本来はテキストファイルの先頭に置いて、上位バイトが先か下位バイトが先かを判断するのに使うものである。
+*クリンゴン文字
+*神代文字
+*BETTY BOOP
+*将軍様専用ハングル
-==使用例==
+==リンタ==
- 入力：救世主かける&amp;#8204;様万歳！！
+*[http://www.unicode.org/ Unicode Consortium]
- 表示：救世主かける‌様万歳！！