「Unicode」の版間の差分

提供: Kakerunpedia
ナビゲーションに移動 検索に移動
(復旧)
 
(3人の利用者による、間の3版が非表示)
1行目: 1行目:
'''Unicode'''(ユニコード)とは、全世界共通の文字コードである。
+
'''Unicode'''(ユニコード)とは、古今東西の全ての文字を1つの文字コードセットに入れようという試みである。
 +
マイクロソフトやジャストシステム等が参加するユニコードコンソーシアムにより作られている。
 +
Windowsや[[ニンテンドーDS]]等にも採用され、今後の世界標準になる見込みである。
 +
UnicodeでのコードポイントはU+XXXXのように表す。
 +
実際の符号化方式にはUTF-8(欧米優遇)、UTF-16(U+10000以降は4バイト)、UTF-32(サイズでかすぎ)等がある。
  
==概要==
+
==基本多言語面(BMP, U+0000~U+FFFF)==
漢字はCJK統合漢字と言って、中日韓で微妙に形が違う漢字は1つのコードポイントに統合されている訳だが、「浅」は統合しても「桟」と「栈」は統合しないとかミスが多発している、どうすんの。また、「CJK」と極東を一括りにすることによって一部の人達が怒ってきそうである。漢字なんて元々中国からのパケリなのにね(^ДД^)
+
===U+0000~U+007F 基本ラテン===
最近は線文字Bとか楔形文字とかも追加されていて、昔なのか現代なのか分からなくなって来ている。ファイストスの円盤も追加予定(未解読だろ)、神代文字は却下された(当たり前)。
+
アスキーと同じ。英語はこれだけで事足りる。
 +
===U+0080~U+00FF ラテン1補助===
 +
ドイツ語、スペイン語、イタリア語等の西側の言語はこれで事足りる。フランス語は"Œ"が足りない。
 +
===U+0100~U+017F ラテン拡張A===
 +
フランス語、ポーランド語等多くの言語がここまでで事足りる。
 +
===U+0180~U+024F ラテン拡張B===
 +
中国語のピンインの第3声がここで登場。尤も結合文字を使うのが普通。
 +
===U+0250~U+02AF IPA拡張===
 +
中学生でも知ってる発音記号がここで登場。
 +
===U+0900~U+097F デーヴァナーガリー文字===
 +
*U+0950 ॐ [[オウム真理教]]のマーク。
 +
===U+1100~U+11FF ハングル字母===
 +
ハングルは1つの文字を初声(子音)+中声(母音)[+終声(子音)]を表す高々3つの部品(字母という)の組み合わせで表す。
 +
ここには現在では使われない字母も入って、組み合わさって表示するこになっているのだが、完全に実装したシステムはあんのか?
 +
===U+2000~U+206F 一般句読点===
 +
スペースやハイフンだけでも種類が沢山。
 +
「かける様」の文字列は[[livedoor したらば掲示板]]の全体NGワードになってるので、
 +
[[愚民社会を考える掲示板]]ではNGワードを回避するのにここの見えない文字達が利用される。
 +
====「かける様」の中に入れられることのある主な文字====
 +
*U+200C ZERO WIDTH NON-JOINER 両側のアラビア文字を続かない形にする。この文字自体は見えない。
 +
*U+200D ZERO WIDTH JOINER 両側のアラビア文字を続く形にする。この文字自体は見えない。
 +
以下は[[ライブドア]]に対策されているので現在は利用不可。
 +
*U+200B ZERO WIDTH SPACE 幅無しでジャスティフィケーションにも影響しないスペース。本来は単語途中で改行させたい時に入れる。
 +
*U+FEFF ZERO WIDTH NO-BREAK SPACE 幅無しでここで改行もしないスペース。本来はテキストファイルの文頭において、リトルエンディアンかビッグエンディアンかを判断させる為にある。U+FFFEは文字ではないことになっているので、こっちが出て来たら逆に解釈すれば良いという事になる。
 +
====使用例====
 +
入力:救世主かける‌様万歳!!
 +
表示:救世主かける‌様万歳!!
 +
===U+2100~U+214F 文字様記号===
 +
ℂ(U+2102)、ℝ(U+211D)や、文字とは別に単位の記号もある(気付いてないだけかも知れんが、使い分けされてるのを見たことない)。
 +
===U+2600~U+26FF 様々な記号===
 +
☢(U+2622)、☣(U+2623)、☭(U+262D)、☺(U+263A)や、天気、八卦、十二星座、チェス等の記号が多数。
 +
===U+3040~U+309F ひらがな===
 +
合字ゟ(より)。
 +
===U+30A0~U+30FF カタカナ===
 +
合字ヿ(コト)。またヴァ行を表すのに使われたことがある、ワ行に濁音が付いたのもある。
 +
===U+31F0~U+31FF カタカナ拡張===
 +
アイヌ語に使う小文字のカタカナ16種類。
 +
===U+4E00~U+9FFF CJK統合漢字===
 +
中日韓(CJK)の漢字をごっちゃにして、よく似た文字は1つに統合して、部首順に並べたもの。
 +
この統合が曲者で、国によって字形が違う漢字でもよく似た文字は統合してしまった(例えば「骨」は中国では鏡文字)為、
 +
プレーンテキストでは中日韓の漢字を混ぜられないようになってしまった。それ故日本で最も評判が悪いのがここ。
 +
欧米人に言わせれば、「こんだけ多大な領域を割り当ててやってんのに極東の連中はまだ満足せんのかい」みたいな感覚なんでしょうかねえ。
 +
また「浅」は統合しても「桟」と「栈」は統合されていないなどミスも多発している。
 +
===U+AC00~U+D7FF ハングル音節===
 +
現在使われるハングル字母は、初声19種類、中声21種類、終声27種類。
 +
それらが組み合わさった形で論理的にあり得る全ての文字19×21×(27+1)=11172文字を収録している。
 +
が、実際はこれの半分も使われない。
 +
===U+D800~U+DFFF サロゲート===
 +
当初Unicodeは16ビット65536文字の中に全部押し込めようとしたが、勿論その計画は破綻し、
 +
ここの2048文字を組み合わせて1024*1024=1048576文字を新たに表現することにした。
 +
===U+E000~U+F8FF 私用領域===
 +
外字もここ。
 +
===U+F900~U+FAFF CJK互換漢字===
 +
本来は統合対象だが、既存の文字コードで別扱いされている文字は、互換の為こっちに押し込められる。
 +
===U+FB50~U+FDFF アラビア表示形A===
 +
1つの特別な単語の表示形も入っていたりする。何故かここについて触れている日本語のページが全然出て来ないのでここで一部紹介。
 +
*U+FDF2 (الله/アッラーフ) アッラー。専用のコードポイントがあるとか流石神。
 +
*U+FDF3 (اكبر/アクバル) 偉大。
 +
*U+FDF4 (مهمد/ムハンマド) ムハンマド。
 +
これなんかもはや1つの文章。
 +
*U+FDFA (صلى الله عليه وسلم/サッラッラーフ・アライヒ・ワ・サッラム) 彼にアッラーの祝福と平安あれ;ムハンマドの後に毎回添える。
 +
*U+FDFD (بسم الله الرحمن الرحيم/ビスミ・ッラーヒ・ッラフマーニ・ッラヒーム) 慈悲遍く慈愛深きアッラーの御名において;クルアーンの冒頭。
 +
===U+FE70~U+FEFF アラビア表示形B===
 +
ご存知アラビア文字は独立、語頭、語中、語尾によって形が変わるので、それぞれの形がここに入っている。
 +
悪魔で表示形なので、実際にこっちを入力する訳ではない。
 +
===U+FFF0~U+FFFF 特殊文字===
 +
悪名高きルビタグもあるが、実装してるシステムあんのか?
 +
 
 +
==補助多言語面(SMP, U+10000~U+1FFFF)==
 +
===U+10000~U+100FF 線文字B===
 +
仮名文字と同じシステムを持つ、クレタ島で見つかった。'''字形が部分的にしか分かっていない'''文字がある。
 +
===U+101D0~U+101FF フェイストスの円盤===
 +
テキストが1枚しか無い為このままで永久に解読不可能な文字。こんなん追加して良いのか????
 +
===U+13000~U+1342F ヒエログリフ===
 +
今の所無いけど、カルトゥーシュとかどうするんだろう?
 +
===U+1F000~U+1F0FF 麻雀牌、ドミノ牌、トランプ===
 +
パンドラの箱開きまくり爆死
 +
===U+1F300~U+1F5FF 絵文字等===
 +
これの収録は日本でもニュースになった。携帯会社が追加する度に増えるのか?
  
==主な(?)利用方法==
+
==補助漢字面(SIP, U+20000~U+2FFFF)==
「かける様」の文字列は[[したらば掲示板]]の全体NGワードになってる訳だが、色んな幅のスペースや見えない文字とかがUnicodeには天こ盛りなので、それらの文字を「[[かける様]]」の中に入れることによって外見は何も変わりなくNGワードを回避することが出来る。但し名前やスレのタイトルには使えない。
+
全部漢字。4万字以上が収録されているがミスが多い。
  
==主な文字==
+
==第三漢字面(TIP, U+30000~U+3FFFF)==
===U+200C ‌ 幅無しノンジョイナー===
+
甲骨文字等小学生でも知っている文字が収録予定。
本来の使い方は、隣接するアラビア文字をくっつかなくする。
 
  
===U+200D ‍ 幅無しジョイナー===
+
==補助多用途面(SSP, U+E0000~U+EFFFF)==
本来の使い方は、隣接するアラビア文字をくっつく形にする。
+
制御文字が入る。言語タグは[[オウム真理教|ポア]]予定(?)、異体字セレクタは漢字用に使われる。
 +
BMPのが使われないのは16文字の取り合いを防ぐ為?
  
===[[ライブドア]]に対策され現在は使用不可===
+
==収録されなかった主な文字==
*U+2009   細いスペース
+
*クリンゴン文字
*U+200A   極細スペース
+
*神代文字
*U+200B ​ 幅無しスペース
+
*BETTY BOOP
本来の使い方は、長い単語の中に入れておくと、行がはみ出した時にそこで改行してくれる。
+
*将軍様専用ハングル
  
*U+FEFF  幅無し改行しないスペース
+
==今後の予定==
意味無いやないか、と言ってはいけない。本来はテキストファイルの先頭に置いて、上位バイトが先か下位バイトが先かを判断するのに使うものである。
+
永遠未解読文字、[[ゲーム]]用の記号、絵文字等々何処まで文字なのか?パンドラの箱が開きまくっているが、
 +
今後も西夏文字、梵字、トンパ文字、変体仮名等が追加される予定。
 +
個人的には渡邊さんよりも日本漢字と中国漢字の違いをプレーンテキストで表現出来るようにして欲しいんですけどNE(水素爆死
  
==使用例==
+
==語録==
入力:救世主かける‌様万歳!!
+
*芦田さんは[[兵庫県|芦屋]]のお嬢様だ
表示:救世主かける‌様万歳!!
+
 
 +
==リンタ==
 +
*[http://www.unicode.org/ Unicode Consortium]
 +
*[http://www.unicode.org/charts/unihan.html Unihan Database] 漢字の各文字コードでの割り当てや辞書での番号、発音、字義等が分かる
 +
*[http://www.unicode.org/ivd/ Ideographic Variation Database] 異体字リスト
 +
 
 +
{{DEFAULTSORT:ゆきこおと}}
 +
[[category:情報]]
 +
[[category:秀逸な記事]]

2014年5月10日 (土) 13:02時点における版

Unicode(ユニコード)とは、古今東西の全ての文字を1つの文字コードセットに入れようという試みである。 マイクロソフトやジャストシステム等が参加するユニコードコンソーシアムにより作られている。 WindowsやニンテンドーDS等にも採用され、今後の世界標準になる見込みである。 UnicodeでのコードポイントはU+XXXXのように表す。 実際の符号化方式にはUTF-8(欧米優遇)、UTF-16(U+10000以降は4バイト)、UTF-32(サイズでかすぎ)等がある。

基本多言語面(BMP, U+0000~U+FFFF)

U+0000~U+007F 基本ラテン

アスキーと同じ。英語はこれだけで事足りる。

U+0080~U+00FF ラテン1補助

ドイツ語、スペイン語、イタリア語等の西側の言語はこれで事足りる。フランス語は"Œ"が足りない。

U+0100~U+017F ラテン拡張A

フランス語、ポーランド語等多くの言語がここまでで事足りる。

U+0180~U+024F ラテン拡張B

中国語のピンインの第3声がここで登場。尤も結合文字を使うのが普通。

U+0250~U+02AF IPA拡張

中学生でも知ってる発音記号がここで登場。

U+0900~U+097F デーヴァナーガリー文字

U+1100~U+11FF ハングル字母

ハングルは1つの文字を初声(子音)+中声(母音)[+終声(子音)]を表す高々3つの部品(字母という)の組み合わせで表す。 ここには現在では使われない字母も入って、組み合わさって表示するこになっているのだが、完全に実装したシステムはあんのか?

U+2000~U+206F 一般句読点

スペースやハイフンだけでも種類が沢山。 「かける様」の文字列はlivedoor したらば掲示板の全体NGワードになってるので、 愚民社会を考える掲示板ではNGワードを回避するのにここの見えない文字達が利用される。

「かける様」の中に入れられることのある主な文字

  • U+200C ZERO WIDTH NON-JOINER 両側のアラビア文字を続かない形にする。この文字自体は見えない。
  • U+200D ZERO WIDTH JOINER 両側のアラビア文字を続く形にする。この文字自体は見えない。

以下はライブドアに対策されているので現在は利用不可。

  • U+200B ZERO WIDTH SPACE 幅無しでジャスティフィケーションにも影響しないスペース。本来は単語途中で改行させたい時に入れる。
  • U+FEFF ZERO WIDTH NO-BREAK SPACE 幅無しでここで改行もしないスペース。本来はテキストファイルの文頭において、リトルエンディアンかビッグエンディアンかを判断させる為にある。U+FFFEは文字ではないことになっているので、こっちが出て来たら逆に解釈すれば良いという事になる。

使用例

入力:救世主かける‌様万歳!!
表示:救世主かける‌様万歳!!

U+2100~U+214F 文字様記号

ℂ(U+2102)、ℝ(U+211D)や、文字とは別に単位の記号もある(気付いてないだけかも知れんが、使い分けされてるのを見たことない)。

U+2600~U+26FF 様々な記号

☢(U+2622)、☣(U+2623)、☭(U+262D)、☺(U+263A)や、天気、八卦、十二星座、チェス等の記号が多数。

U+3040~U+309F ひらがな

合字ゟ(より)。

U+30A0~U+30FF カタカナ

合字ヿ(コト)。またヴァ行を表すのに使われたことがある、ワ行に濁音が付いたのもある。

U+31F0~U+31FF カタカナ拡張

アイヌ語に使う小文字のカタカナ16種類。

U+4E00~U+9FFF CJK統合漢字

中日韓(CJK)の漢字をごっちゃにして、よく似た文字は1つに統合して、部首順に並べたもの。 この統合が曲者で、国によって字形が違う漢字でもよく似た文字は統合してしまった(例えば「骨」は中国では鏡文字)為、 プレーンテキストでは中日韓の漢字を混ぜられないようになってしまった。それ故日本で最も評判が悪いのがここ。 欧米人に言わせれば、「こんだけ多大な領域を割り当ててやってんのに極東の連中はまだ満足せんのかい」みたいな感覚なんでしょうかねえ。 また「浅」は統合しても「桟」と「栈」は統合されていないなどミスも多発している。

U+AC00~U+D7FF ハングル音節

現在使われるハングル字母は、初声19種類、中声21種類、終声27種類。 それらが組み合わさった形で論理的にあり得る全ての文字19×21×(27+1)=11172文字を収録している。 が、実際はこれの半分も使われない。

U+D800~U+DFFF サロゲート

当初Unicodeは16ビット65536文字の中に全部押し込めようとしたが、勿論その計画は破綻し、 ここの2048文字を組み合わせて1024*1024=1048576文字を新たに表現することにした。

U+E000~U+F8FF 私用領域

外字もここ。

U+F900~U+FAFF CJK互換漢字

本来は統合対象だが、既存の文字コードで別扱いされている文字は、互換の為こっちに押し込められる。

U+FB50~U+FDFF アラビア表示形A

1つの特別な単語の表示形も入っていたりする。何故かここについて触れている日本語のページが全然出て来ないのでここで一部紹介。

  • U+FDF2 (الله/アッラーフ) アッラー。専用のコードポイントがあるとか流石神。
  • U+FDF3 (اكبر/アクバル) 偉大。
  • U+FDF4 (مهمد/ムハンマド) ムハンマド。

これなんかもはや1つの文章。

  • U+FDFA (صلى الله عليه وسلم/サッラッラーフ・アライヒ・ワ・サッラム) 彼にアッラーの祝福と平安あれ;ムハンマドの後に毎回添える。
  • U+FDFD (بسم الله الرحمن الرحيم/ビスミ・ッラーヒ・ッラフマーニ・ッラヒーム) 慈悲遍く慈愛深きアッラーの御名において;クルアーンの冒頭。

U+FE70~U+FEFF アラビア表示形B

ご存知アラビア文字は独立、語頭、語中、語尾によって形が変わるので、それぞれの形がここに入っている。 悪魔で表示形なので、実際にこっちを入力する訳ではない。

U+FFF0~U+FFFF 特殊文字

悪名高きルビタグもあるが、実装してるシステムあんのか?

補助多言語面(SMP, U+10000~U+1FFFF)

U+10000~U+100FF 線文字B

仮名文字と同じシステムを持つ、クレタ島で見つかった。字形が部分的にしか分かっていない文字がある。

U+101D0~U+101FF フェイストスの円盤

テキストが1枚しか無い為このままで永久に解読不可能な文字。こんなん追加して良いのか????

U+13000~U+1342F ヒエログリフ

今の所無いけど、カルトゥーシュとかどうするんだろう?

U+1F000~U+1F0FF 麻雀牌、ドミノ牌、トランプ

パンドラの箱開きまくり爆死

U+1F300~U+1F5FF 絵文字等

これの収録は日本でもニュースになった。携帯会社が追加する度に増えるのか?

補助漢字面(SIP, U+20000~U+2FFFF)

全部漢字。4万字以上が収録されているがミスが多い。

第三漢字面(TIP, U+30000~U+3FFFF)

甲骨文字等小学生でも知っている文字が収録予定。

補助多用途面(SSP, U+E0000~U+EFFFF)

制御文字が入る。言語タグはポア予定(?)、異体字セレクタは漢字用に使われる。 BMPのが使われないのは16文字の取り合いを防ぐ為?

収録されなかった主な文字

  • クリンゴン文字
  • 神代文字
  • BETTY BOOP
  • 将軍様専用ハングル

今後の予定

永遠未解読文字、ゲーム用の記号、絵文字等々何処まで文字なのか?パンドラの箱が開きまくっているが、 今後も西夏文字、梵字、トンパ文字、変体仮名等が追加される予定。 個人的には渡邊さんよりも日本漢字と中国漢字の違いをプレーンテキストで表現出来るようにして欲しいんですけどNE(水素爆死

語録

  • 芦田さんは芦屋のお嬢様だ

リンタ