「Unicode」の版間の差分

2023年11月10日 (金) 13:43時点における最新版

Unicode（ユニコード）とは、古今東西の全ての文字を１つの文字コードセットに入れようという試みである。マイクロソフトやジャストシステム等が参加するユニコードコンソーシアムにより作られている。 WindowsやニンテンドーDS等にも採用され、今後の世界標準になる見込みである。 UnicodeでのコードポイントはU+XXXXのように表す。実際の符号化方式にはUTF-8(欧米優遇)、UTF-16(U+10000以降は４バイト)、UTF-32(サイズでかすぎ)等がある。

基本多言語面(BMP, U+0000～U+FFFF)[編集]

U+0000～U+007F 基本ラテン[編集]

アスキーと同じ。英語はこれだけで事足りる。

U+0080～U+00FF ラテン１補助[編集]

ドイツ語、スペイン語、イタリア語等の西側の言語はこれで事足りる。フランス語は"Œ"が足りない。

U+0100～U+017F ラテン拡張Ａ[編集]

フランス語、ポーランド語等多くの言語がここまでで事足りる。

U+0180～U+024F ラテン拡張Ｂ[編集]

中国語のピンインの第３声がここで登場。尤も結合文字を使うのが普通。

U+0250～U+02AF ＩＰＡ拡張[編集]

中学生でも知ってる発音記号がここで登場。

U+0900～U+097F デーヴァナーガリー文字[編集]

U+0950 ॐ オウム真理教のマーク。

U+1100～U+11FF ハングル字母[編集]

ハングルは１つの文字を初声（子音）＋中声（母音）［＋終声（子音）］を表す高々３つの部品（字母という）の組み合わせで表す。ここには現在では使われない字母も入って、組み合わさって表示するこになっているのだが、完全に実装したシステムはあんのか？

U+2000～U+206F 一般句読点[編集]

スペースやハイフンだけでも種類が沢山。「かける様」の文字列はlivedoor したらば掲示板の全体NGワードになってるので、愚民社会を考える掲示板ではNGワードを回避するのにここの見えない文字達が利用される。

「かける様」の中に入れられることのある主な文字[編集]

U+200C ZERO WIDTH NON-JOINER 両側のアラビア文字を続かない形にする。この文字自体は見えない。
U+200D ZERO WIDTH JOINER 両側のアラビア文字を続く形にする。この文字自体は見えない。

以下はライブドアに対策されているので現在は利用不可。

U+200B ZERO WIDTH SPACE 幅無しでジャスティフィケーションにも影響しないスペース。本来は単語途中で改行させたい時に入れる。
U+FEFF ZERO WIDTH NO-BREAK SPACE 幅無しでここで改行もしないスペース。本来はテキストファイルの文頭において、リトルエンディアンかビッグエンディアンかを判断させる為にある。U+FFFEは文字ではないことになっているので、こっちが出て来たら逆に解釈すれば良いという事になる。

使用例[編集]

入力：救世主かける&#8204;様万歳！！
表示：救世主かける‌様万歳！！

U+2100～U+214F 文字様記号[編集]

ℂ(U+2102)、ℝ(U+211D)や、文字とは別に単位の記号もある（気付いてないだけかも知れんが、使い分けされてるのを見たことない）。

U+2600～U+26FF 様々な記号[編集]

☢(U+2622)、☣(U+2623)、☭(U+262D)、☺(U+263A)や、天気、八卦、十二星座、チェス等の記号が多数。

U+3040～U+309F ひらがな[編集]

合字ゟ（より）。

U+30A0～U+30FF カタカナ[編集]

合字ヿ（コト）。またヴァ行を表すのに使われたことがある、ワ行に濁音が付いたのもある。

U+31F0～U+31FF カタカナ拡張[編集]

アイヌ語に使う小文字のカタカナ１６種類。

U+4E00～U+9FFF CJK統合漢字[編集]

中日韓(CJK)の漢字をごっちゃにして、よく似た文字は１つに統合して、部首順に並べたもの。この統合が曲者で、国によって字形が違う漢字でもよく似た文字は統合してしまった（例えば「骨」は中国では鏡文字）為、プレーンテキストでは中日韓の漢字を混ぜられないようになってしまった。それ故日本で最も評判が悪いのがここ。欧米人に言わせれば、「こんだけ多大な領域を割り当ててやってんのに極東の連中はまだ満足せんのかい」みたいな感覚なんでしょうかねえ。また「浅」は統合しても「桟」と「栈」は統合されていないなどミスも多発している。

U+AC00～U+D7FF ハングル音節[編集]

現在使われるハングル字母は、初声１９種類、中声２１種類、終声２７種類。それらが組み合わさった形で論理的にあり得る全ての文字１９×２１×（２７＋１）＝１１１７２文字を収録している。が、実際はこれの半分も使われない。

U+D800～U+DFFF サロゲート[編集]

当初Unicodeは16ビット65536文字の中に全部押し込めようとしたが、勿論その計画は破綻し、ここの2048文字を組み合わせて1024*1024=1048576文字を新たに表現することにした。

U+E000～U+F8FF 私用領域[編集]

外字もここ。

U+F900～U+FAFF CJK互換漢字[編集]

本来は統合対象だが、既存の文字コードで別扱いされている文字は、互換の為こっちに押し込められる。

U+FB50～U+FDFF アラビア表示形Ａ[編集]

１つの特別な単語の表示形も入っていたりする。何故かここについて触れている日本語のページが全然出て来ないのでここで一部紹介。

U+FDF2 (الله/アッラーフ) アッラー。専用のコードポイントがあるとか流石神。
U+FDF3 (اكبر/アクバル) 偉大。
U+FDF4 (مهمد/ムハンマド) ムハンマド。

これなんかもはや１つの文章。

U+FDFA (صلى الله عليه وسلم/サッラッラーフ・アライヒ・ワ・サッラム) 彼にアッラーの祝福と平安あれ；ムハンマドの後に毎回添える。
U+FDFD (بسم الله الرحمن الرحيم/ビスミ・ッラーヒ・ッラフマーニ・ッラヒーム) 慈悲遍く慈愛深きアッラーの御名において；クルアーンの冒頭。

U+FE70～U+FEFF アラビア表示形Ｂ[編集]

ご存知アラビア文字は独立、語頭、語中、語尾によって形が変わるので、それぞれの形がここに入っている。悪魔で表示形なので、実際にこっちを入力する訳ではない。

U+FFF0～U+FFFF 特殊文字[編集]

悪名高きルビタグもあるが、実装してるシステムあんのか？

補助多言語面(SMP, U+10000～U+1FFFF)[編集]

U+10000～U+100FF 線文字B[編集]

仮名文字と同じシステムを持つ、クレタ島で見つかった。字形が部分的にしか分かっていない文字がある。

U+101D0～U+101FF フェイストスの円盤[編集]

テキストが１枚しか無い為このままで永久に解読不可能な文字。こんなん追加して良いのか？？？？

U+13000～U+1342F ヒエログリフ[編集]

今の所無いけど、カルトゥーシュとかどうするんだろう？

U+1F000～U+1F0FF 麻雀牌、ドミノ牌、トランプ[編集]

パンドラの箱開きまくり爆死

U+1F300～U+1F5FF 絵文字等[編集]

これの収録は日本でもニュースになった。携帯会社が追加する度に増えるのか？

補助漢字面(SIP, U+20000～U+2FFFF)[編集]

全部漢字。４万字以上が収録されているがミスが多い。

第三漢字面(TIP, U+30000～U+3FFFF)[編集]

甲骨文字等小学生でも知っている文字が収録予定。

補助多用途面(SSP, U+E0000～U+EFFFF)[編集]

制御文字が入る。言語タグはポア予定（？）、異体字セレクタは漢字用に使われる。 BMPのが使われないのは１６文字の取り合いを防ぐ為？

収録されなかった主な文字[編集]

クリンゴン文字
神代文字
BETTY BOOP
将軍様専用ハングル

今後の予定[編集]

永遠未解読文字、ゲーム用の記号、絵文字等々何処まで文字なのか？パンドラの箱が開きまくっているが、今後も西夏文字、梵字、トンパ文字、変体仮名等が追加される予定。個人的には渡邊さんよりも日本漢字と中国漢字の違いをプレーンテキストで表現出来るようにして欲しいんですけどＮＥ（水素爆死

語録[編集]

芦田さんは芦屋のお嬢様だ

リンタ[編集]

Unicode Consortium
Unihan Database 漢字の各文字コードでの割り当てや辞書での番号、発音、字義等が分かる
Ideographic Variation Database 異体字リスト

@@ 1行目: / 1行目: @@
-此のwikiは、当方こと[[利用者:ロン・セガン]]が接収した。
+'''Unicode'''（ユニコード）とは、古今東西の全ての文字を１つの文字コードセットに入れようという試みである。
+マイクロソフトやジャストシステム等が参加するユニコードコンソーシアムにより作られている。
+Windowsや[[ニンテンドーDS]]等にも採用され、今後の世界標準になる見込みである。
+UnicodeでのコードポイントはU+XXXXのように表す。
+実際の符号化方式にはUTF-8(欧米優遇)、UTF-16(U+10000以降は４バイト)、UTF-32(サイズでかすぎ)等がある。
-お前ら反日パヨク共は亡くなった<br>
+==基本多言語面(BMP, U+0000～U+FFFF)==
-人間である安倍元総理に対し、何<br>
+===U+0000～U+007F 基本ラテン===
-時まで讒言する気なのやら。
+アスキーと同じ。英語はこれだけで事足りる。
+===U+0080～U+00FF ラテン１補助===
+ドイツ語、スペイン語、イタリア語等の西側の言語はこれで事足りる。フランス語は"Œ"が足りない。
+===U+0100～U+017F ラテン拡張Ａ===
+フランス語、ポーランド語等多くの言語がここまでで事足りる。
+===U+0180～U+024F ラテン拡張Ｂ===
+中国語のピンインの第３声がここで登場。尤も結合文字を使うのが普通。
+===U+0250～U+02AF ＩＰＡ拡張===
+中学生でも知ってる発音記号がここで登場。
+===U+0900～U+097F デーヴァナーガリー文字===
+*U+0950 ॐ [[オウム真理教]]のマーク。
+===U+1100～U+11FF ハングル字母===
+ハングルは１つの文字を初声（子音）＋中声（母音）［＋終声（子音）］を表す高々３つの部品（字母という）の組み合わせで表す。
+ここには現在では使われない字母も入って、組み合わさって表示するこになっているのだが、完全に実装したシステムはあんのか？
+===U+2000～U+206F 一般句読点===
+スペースやハイフンだけでも種類が沢山。
+「かける様」の文字列は[[livedoor したらば掲示板]]の全体NGワードになってるので、
+[[愚民社会を考える掲示板]]ではNGワードを回避するのにここの見えない文字達が利用される。
+====「かける様」の中に入れられることのある主な文字====
+*U+200C ZERO WIDTH NON-JOINER 両側のアラビア文字を続かない形にする。この文字自体は見えない。
+*U+200D ZERO WIDTH JOINER 両側のアラビア文字を続く形にする。この文字自体は見えない。
+以下は[[ライブドア]]に対策されているので現在は利用不可。
+*U+200B ZERO WIDTH SPACE 幅無しでジャスティフィケーションにも影響しないスペース。本来は単語途中で改行させたい時に入れる。
+*U+FEFF ZERO WIDTH NO-BREAK SPACE 幅無しでここで改行もしないスペース。本来はテキストファイルの文頭において、リトルエンディアンかビッグエンディアンかを判断させる為にある。U+FFFEは文字ではないことになっているので、こっちが出て来たら逆に解釈すれば良いという事になる。
+====使用例====
+ 入力：救世主かける&amp;#8204;様万歳！！
+ 表示：救世主かける‌様万歳！！
+===U+2100～U+214F 文字様記号===
+ℂ(U+2102)、ℝ(U+211D)や、文字とは別に単位の記号もある（気付いてないだけかも知れんが、使い分けされてるのを見たことない）。
+===U+2600～U+26FF 様々な記号===
+☢(U+2622)、☣(U+2623)、☭(U+262D)、☺(U+263A)や、天気、八卦、十二星座、チェス等の記号が多数。
+===U+3040～U+309F ひらがな===
+合字ゟ（より）。
+===U+30A0～U+30FF カタカナ===
+合字ヿ（コト）。またヴァ行を表すのに使われたことがある、ワ行に濁音が付いたのもある。
+===U+31F0～U+31FF カタカナ拡張===
+アイヌ語に使う小文字のカタカナ１６種類。
+===U+4E00～U+9FFF CJK統合漢字===
+中日韓(CJK)の漢字をごっちゃにして、よく似た文字は１つに統合して、部首順に並べたもの。
+この統合が曲者で、国によって字形が違う漢字でもよく似た文字は統合してしまった（例えば「骨」は中国では鏡文字）為、
+プレーンテキストでは中日韓の漢字を混ぜられないようになってしまった。それ故日本で最も評判が悪いのがここ。
+欧米人に言わせれば、「こんだけ多大な領域を割り当ててやってんのに極東の連中はまだ満足せんのかい」みたいな感覚なんでしょうかねえ。
+また「浅」は統合しても「桟」と「栈」は統合されていないなどミスも多発している。
+===U+AC00～U+D7FF ハングル音節===
+現在使われるハングル字母は、初声１９種類、中声２１種類、終声２７種類。
+それらが組み合わさった形で論理的にあり得る全ての文字１９×２１×（２７＋１）＝１１１７２文字を収録している。
+が、実際はこれの半分も使われない。
+===U+D800～U+DFFF サロゲート===
+当初Unicodeは16ビット65536文字の中に全部押し込めようとしたが、勿論その計画は破綻し、
+ここの2048文字を組み合わせて1024*1024=1048576文字を新たに表現することにした。
+===U+E000～U+F8FF 私用領域===
+外字もここ。
+===U+F900～U+FAFF CJK互換漢字===
+本来は統合対象だが、既存の文字コードで別扱いされている文字は、互換の為こっちに押し込められる。
+===U+FB50～U+FDFF アラビア表示形Ａ===
+１つの特別な単語の表示形も入っていたりする。何故かここについて触れている日本語のページが全然出て来ないのでここで一部紹介。
+*U+FDF2 (الله/アッラーフ) アッラー。専用のコードポイントがあるとか流石神。
+*U+FDF3 (اكبر/アクバル) 偉大。
+*U+FDF4 (مهمد/ムハンマド) ムハンマド。
+これなんかもはや１つの文章。
+*U+FDFA (صلى الله عليه وسلم/サッラッラーフ・アライヒ・ワ・サッラム) 彼にアッラーの祝福と平安あれ；ムハンマドの後に毎回添える。
+*U+FDFD (بسم الله الرحمن الرحيم/ビスミ・ッラーヒ・ッラフマーニ・ッラヒーム) 慈悲遍く慈愛深きアッラーの御名において；クルアーンの冒頭。
+===U+FE70～U+FEFF アラビア表示形Ｂ===
+ご存知アラビア文字は独立、語頭、語中、語尾によって形が変わるので、それぞれの形がここに入っている。
+悪魔で表示形なので、実際にこっちを入力する訳ではない。
+===U+FFF0～U+FFFF 特殊文字===
+悪名高きルビタグもあるが、実装してるシステムあんのか？
-そして其処まで安倍元総理が悪辣<br>
+==補助多言語面(SMP, U+10000～U+1FFFF)==
-極まりない人物だったのに、選挙<br>
+===U+10000～U+100FF 線文字B===
-で殆ど勝てなかった野党連中は、<br>
+仮名文字と同じシステムを持つ、クレタ島で見つかった。'''字形が部分的にしか分かっていない'''文字がある。
-何故その「悪辣さ」を、当時選挙<br>
+===U+101D0～U+101FF フェイストスの円盤===
-活動中に喧伝しなかったのか？
+テキストが１枚しか無い為このままで永久に解読不可能な文字。こんなん追加して良いのか？？？？
+===U+13000～U+1342F ヒエログリフ===
+今の所無いけど、カルトゥーシュとかどうするんだろう？
+===U+1F000～U+1F0FF 麻雀牌、ドミノ牌、トランプ===
+パンドラの箱開きまくり爆死
+===U+1F300～U+1F5FF 絵文字等===
+これの収録は日本でもニュースになった。携帯会社が追加する度に増えるのか？
-理由は簡単。<br>
+==補助漢字面(SIP, U+20000～U+2FFFF)==
-実際には言われてるほどの「悪辣<br>
+全部漢字。４万字以上が収録されているがミスが多い。
-さ」など無かったから。
-又、お前ら反日パヨク共が大喜びし<br>
+==第三漢字面(TIP, U+30000～U+3FFFF)==
-て居る某事件に関しては背景に大い<br>
+甲骨文字等小学生でも知っている文字が収録予定。
-に疑問が有るな。
-困窮してた筈の加害者が、自宅と別<br>
+==補助多用途面(SSP, U+E0000～U+EFFFF)==
-に武器製作の為に作業場を確保
+制御文字が入る。言語タグは[[オウム真理教|ポア]]予定（？）、異体字セレクタは漢字用に使われる。
+BMPのが使われないのは１６文字の取り合いを防ぐ為？
-恨み骨髄の筈の某団体には試し打ち<br>
+==収録されなかった主な文字==
-だけ、本番は何故か政治家が標的に
+*クリンゴン文字
+*神代文字
+*BETTY BOOP
+*将軍様専用ハングル
-発生後、間髪入れず「元自衛官」や<br>
+==今後の予定==
-「親の宗教狂い」が報道される
+永遠未解読文字、[[ゲーム]]用の記号、絵文字等々何処まで文字なのか？パンドラの箱が開きまくっているが、
+今後も西夏文字、梵字、トンパ文字、変体仮名等が追加される予定。
+個人的には渡邊さんよりも日本漢字と中国漢字の違いをプレーンテキストで表現出来るようにして欲しいんですけどＮＥ（水素爆死
-与野党共に居た筈の、某団体と関係<br>
+==語録==
-有りという話が、何故か与党限定に
+*芦田さんは[[兵庫県|芦屋]]のお嬢様だ
-極論だが
+==リンタ==
+*[http://www.unicode.org/ Unicode Consortium]
+*[http://www.unicode.org/charts/unihan.html Unihan Database] 漢字の各文字コードでの割り当てや辞書での番号、発音、字義等が分かる
+*[http://www.unicode.org/ivd/ Ideographic Variation Database] 異体字リスト
-与党の評判を落としたいパヨクの誰か<br>
+{{DEFAULTSORT:ゆきこおと}}
-が与党と関係のある某団体関連で不幸<br>
+[[category:情報]]
-な身の上となった男性に目を付け、<br>
+[[category:秀逸な記事]]
-資金等を援助し、アリバイ作りの為<br>
-に某団体に「試し撃ち」をさせた後<br>
-本番として、著名な政治家を標的に<br>
-した事件後、犯人が同情され被害者<br>
-に問題有りと世論を誘導する。
-とかな。
-以上、反論できるなら反論してみろ。<br>
-但し証拠付きでな。
-ソース<br>
-ttps://twitter.com/jipangbito/status/1645387423336235008<br>
-ttps://twitter.com/jipangbito/status/1634433624274796544