差分

ナビゲーションに移動 検索に移動
2,249 バイト追加 、 2011年3月26日 (土) 08:58
編集の要約なし
Windowsや[[ニンテンドーDS]]等にも採用され、今後の世界標準になる見込みである。
UnicodeでのコードポイントはU+XXXXのように表す。
実際の符号化方式にはUTF-8(欧米優遇)、UTF-16(U+10000以降は4バイト)、UTF-32(サイズでかすぎ)等がある。
==主な文字基本多言語面(BMP, U+0000~U+FFFF)==
===U+0000~U+007F 基本ラテン===
アスキーと同じ。英語はこれだけで事足りる。
外字もここ。
===U+F900~U+FAFF CJK互換漢字===
本来は統合対称だが、既存の文字コードで別扱いされている文字は、互換の為こっちに押し込められる。本来は統合対象だが、既存の文字コードで別扱いされている文字は、互換の為こっちに押し込められる。
===U+FB50~U+FDFF アラビア表示形A===
1つの特別な単語の表示形も入っていたりする。何故かここについて触れている日本語のページが全然出て来ないのでここで一部紹介。
これなんかもはや1つの文章。
*U+FDFA (صلى الله عليه وسلم/サッラッラーフ・アライヒ・ワ・サッラム) 彼にアッラーの祝福と平安あれ;ムハンマドの後に毎回添える。
*U+FDFD (بسم الله الرحمن الرحيم/ビスミッラーヒッラフマーニッラヒームビスミ・ッラーヒ・ッラフマーニ・ッラヒーム) 慈悲遍く慈愛深きアッラーの御名において;クルアーンの冒頭。
===U+FE70~U+FEFF アラビア表示形B===
ご存知アラビア文字は独立、語頭、語中、語尾によって形が変わるので、それぞれの形がここに入っている。
===U+FFF0~U+FFFF 特殊文字===
悪名高きルビタグもあるが、実装してるシステムあんのか?
 
==補助多言語面(SMP, U+10000~U+1FFFF)==
===U+10000~U+100FF 線文字B===
仮名文字と同じシステムを持つ、クレタ島で見つかった。'''字形が部分的にしか分かっていない'''文字がある。
===U+101D0~U+101FF フェイストスの円盤===
テキストが1枚しか無い為このままで永久に解読不可能な文字。こんなん追加して良いのか????
===U+13000~U+1342F ヒエログリフ===
今の所無いけど、カルトゥーシュとかどうするんだろう?
===U+1F000~U+1F0FF 麻雀牌、ドミノ牌、トランプ===
パンドラの箱開きまくり爆死
===U+1F300~U+1F5FF 絵文字等===
これの収録は日本でもニュースになった。携帯会社が追加する度に増えるのか?
 
==補助漢字面(SIP, U+20000~U+2FFFF)==
全部漢字。4万字以上が収録されているがミスが多い。
 
==第三漢字面(TIP, U+30000~U+3FFFF)==
甲骨文字等小学生でも知っている文字が収録予定。
 
==補助多用途面(SSP, U+E0000~U+EFFFF)==
制御文字が入る。言語タグは[[オウム真理教|ポア]]予定(?)、異体字セレクタは漢字用に使われる。
BMPのが使われないのは16文字の取り合いを防ぐ為?
==収録されなかった主な文字==
*BETTY BOOP
*将軍様専用ハングル
 
==今後の予定==
永遠未解読文字、ゲーム用の記号、絵文字等々何処まで文字なのか?パンドラの箱が開きまくっているが、
今後も西夏文字、梵字、トンパ文字、変体仮名等が追加される予定。
個人的には渡邊さんよりも日本漢字と中国漢字の違いをプレーンテキストで表現出来るようにして欲しいんですけどNE(水素爆死
 
==語録==
*芦田さんは[[兵庫県|芦屋]]のお嬢様だ
==リンタ==
*[http://www.unicode.org/ Unicode Consortium]
*[http://www.unicode.org/charts/unihan.html Unihan Database] 漢字の各文字コードでの割り当てや辞書での番号、発音、字義等が分かる
*[http://www.unicode.org/ivd/ Ideographic Variation Database] 異体字リスト
 
[[category:情報技術|ゆにこおと]]
163

回編集

案内メニュー