Unicode

提供: Kakerunpedia
2014年5月10日 (土) 13:02時点における山奥 (トーク | 投稿記録)による版
ナビゲーションに移動 検索に移動

Unicode(ユニコード)とは、古今東西の全ての文字を1つの文字コードセットに入れようという試みである。 マイクロソフトやジャストシステム等が参加するユニコードコンソーシアムにより作られている。 WindowsやニンテンドーDS等にも採用され、今後の世界標準になる見込みである。 UnicodeでのコードポイントはU+XXXXのように表す。 実際の符号化方式にはUTF-8(欧米優遇)、UTF-16(U+10000以降は4バイト)、UTF-32(サイズでかすぎ)等がある。

基本多言語面(BMP, U+0000~U+FFFF)

U+0000~U+007F 基本ラテン

アスキーと同じ。英語はこれだけで事足りる。

U+0080~U+00FF ラテン1補助

ドイツ語、スペイン語、イタリア語等の西側の言語はこれで事足りる。フランス語は"Œ"が足りない。

U+0100~U+017F ラテン拡張A

フランス語、ポーランド語等多くの言語がここまでで事足りる。

U+0180~U+024F ラテン拡張B

中国語のピンインの第3声がここで登場。尤も結合文字を使うのが普通。

U+0250~U+02AF IPA拡張

中学生でも知ってる発音記号がここで登場。

U+0900~U+097F デーヴァナーガリー文字

U+1100~U+11FF ハングル字母

ハングルは1つの文字を初声(子音)+中声(母音)[+終声(子音)]を表す高々3つの部品(字母という)の組み合わせで表す。 ここには現在では使われない字母も入って、組み合わさって表示するこになっているのだが、完全に実装したシステムはあんのか?

U+2000~U+206F 一般句読点

スペースやハイフンだけでも種類が沢山。 「かける様」の文字列はlivedoor したらば掲示板の全体NGワードになってるので、 愚民社会を考える掲示板ではNGワードを回避するのにここの見えない文字達が利用される。

「かける様」の中に入れられることのある主な文字

  • U+200C ZERO WIDTH NON-JOINER 両側のアラビア文字を続かない形にする。この文字自体は見えない。
  • U+200D ZERO WIDTH JOINER 両側のアラビア文字を続く形にする。この文字自体は見えない。

以下はライブドアに対策されているので現在は利用不可。

  • U+200B ZERO WIDTH SPACE 幅無しでジャスティフィケーションにも影響しないスペース。本来は単語途中で改行させたい時に入れる。
  • U+FEFF ZERO WIDTH NO-BREAK SPACE 幅無しでここで改行もしないスペース。本来はテキストファイルの文頭において、リトルエンディアンかビッグエンディアンかを判断させる為にある。U+FFFEは文字ではないことになっているので、こっちが出て来たら逆に解釈すれば良いという事になる。

使用例

入力:救世主かける‌様万歳!!
表示:救世主かける‌様万歳!!

U+2100~U+214F 文字様記号

ℂ(U+2102)、ℝ(U+211D)や、文字とは別に単位の記号もある(気付いてないだけかも知れんが、使い分けされてるのを見たことない)。

U+2600~U+26FF 様々な記号

☢(U+2622)、☣(U+2623)、☭(U+262D)、☺(U+263A)や、天気、八卦、十二星座、チェス等の記号が多数。

U+3040~U+309F ひらがな

合字ゟ(より)。

U+30A0~U+30FF カタカナ

合字ヿ(コト)。またヴァ行を表すのに使われたことがある、ワ行に濁音が付いたのもある。

U+31F0~U+31FF カタカナ拡張

アイヌ語に使う小文字のカタカナ16種類。

U+4E00~U+9FFF CJK統合漢字

中日韓(CJK)の漢字をごっちゃにして、よく似た文字は1つに統合して、部首順に並べたもの。 この統合が曲者で、国によって字形が違う漢字でもよく似た文字は統合してしまった(例えば「骨」は中国では鏡文字)為、 プレーンテキストでは中日韓の漢字を混ぜられないようになってしまった。それ故日本で最も評判が悪いのがここ。 欧米人に言わせれば、「こんだけ多大な領域を割り当ててやってんのに極東の連中はまだ満足せんのかい」みたいな感覚なんでしょうかねえ。 また「浅」は統合しても「桟」と「栈」は統合されていないなどミスも多発している。

U+AC00~U+D7FF ハングル音節

現在使われるハングル字母は、初声19種類、中声21種類、終声27種類。 それらが組み合わさった形で論理的にあり得る全ての文字19×21×(27+1)=11172文字を収録している。 が、実際はこれの半分も使われない。

U+D800~U+DFFF サロゲート

当初Unicodeは16ビット65536文字の中に全部押し込めようとしたが、勿論その計画は破綻し、 ここの2048文字を組み合わせて1024*1024=1048576文字を新たに表現することにした。

U+E000~U+F8FF 私用領域

外字もここ。

U+F900~U+FAFF CJK互換漢字

本来は統合対象だが、既存の文字コードで別扱いされている文字は、互換の為こっちに押し込められる。

U+FB50~U+FDFF アラビア表示形A

1つの特別な単語の表示形も入っていたりする。何故かここについて触れている日本語のページが全然出て来ないのでここで一部紹介。

  • U+FDF2 (الله/アッラーフ) アッラー。専用のコードポイントがあるとか流石神。
  • U+FDF3 (اكبر/アクバル) 偉大。
  • U+FDF4 (مهمد/ムハンマド) ムハンマド。

これなんかもはや1つの文章。

  • U+FDFA (صلى الله عليه وسلم/サッラッラーフ・アライヒ・ワ・サッラム) 彼にアッラーの祝福と平安あれ;ムハンマドの後に毎回添える。
  • U+FDFD (بسم الله الرحمن الرحيم/ビスミ・ッラーヒ・ッラフマーニ・ッラヒーム) 慈悲遍く慈愛深きアッラーの御名において;クルアーンの冒頭。

U+FE70~U+FEFF アラビア表示形B

ご存知アラビア文字は独立、語頭、語中、語尾によって形が変わるので、それぞれの形がここに入っている。 悪魔で表示形なので、実際にこっちを入力する訳ではない。

U+FFF0~U+FFFF 特殊文字

悪名高きルビタグもあるが、実装してるシステムあんのか?

補助多言語面(SMP, U+10000~U+1FFFF)

U+10000~U+100FF 線文字B

仮名文字と同じシステムを持つ、クレタ島で見つかった。字形が部分的にしか分かっていない文字がある。

U+101D0~U+101FF フェイストスの円盤

テキストが1枚しか無い為このままで永久に解読不可能な文字。こんなん追加して良いのか????

U+13000~U+1342F ヒエログリフ

今の所無いけど、カルトゥーシュとかどうするんだろう?

U+1F000~U+1F0FF 麻雀牌、ドミノ牌、トランプ

パンドラの箱開きまくり爆死

U+1F300~U+1F5FF 絵文字等

これの収録は日本でもニュースになった。携帯会社が追加する度に増えるのか?

補助漢字面(SIP, U+20000~U+2FFFF)

全部漢字。4万字以上が収録されているがミスが多い。

第三漢字面(TIP, U+30000~U+3FFFF)

甲骨文字等小学生でも知っている文字が収録予定。

補助多用途面(SSP, U+E0000~U+EFFFF)

制御文字が入る。言語タグはポア予定(?)、異体字セレクタは漢字用に使われる。 BMPのが使われないのは16文字の取り合いを防ぐ為?

収録されなかった主な文字

  • クリンゴン文字
  • 神代文字
  • BETTY BOOP
  • 将軍様専用ハングル

今後の予定

永遠未解読文字、ゲーム用の記号、絵文字等々何処まで文字なのか?パンドラの箱が開きまくっているが、 今後も西夏文字、梵字、トンパ文字、変体仮名等が追加される予定。 個人的には渡邊さんよりも日本漢字と中国漢字の違いをプレーンテキストで表現出来るようにして欲しいんですけどNE(水素爆死

語録

  • 芦田さんは芦屋のお嬢様だ

リンタ