差分
ナビゲーションに移動
検索に移動
取り敢えずBMPまで。
'''Unicode'''(ユニコード)とは、全世界共通の文字コードである。(ユニコード)とは、古今東西の全ての文字を1つの文字コードセットに入れようという試みである。マイクロソフトやジャストシステム等が参加するユニコードコンソーシアムにより作られている。==概要==漢字はCJK統合漢字と言って、中日韓で微妙に形が違う漢字は1つのコードポイントに統合されている訳だが、「浅」は統合しても「桟」と「栈」は統合しないとかミスが多発している、どうすんの。また、「CJK」と極東を一括りにすることによって一部の人達が怒ってきそうである。漢字なんて元々中国からのパケリなのにね(^ДД^)最近は線文字Bとか楔形文字とかも追加されていて、昔なのか現代なのか分からなくなって来ている。ファイストスの円盤も追加予定(未解読だろ)、神代文字は却下された(当たり前)。 ==主な(?)利用方法==「かける様」の文字列はWindowsや[[したらば掲示板ニンテンドーDS]]の全体NGワードになってる訳だが、色んな幅のスペースや見えない文字とかがUnicodeには天こ盛りなので、それらの文字を「[[かける様]]」の中に入れることによって外見は何も変わりなくNGワードを回避することが出来る。但し名前やスレのタイトルには使えない。等にも採用され、今後の世界標準になる見込みである。UnicodeでのコードポイントはU+XXXXのように表す。
==主な文字==
===U+200C ‌ 幅無しノンジョイナー0000~U+007F 基本ラテン===アスキーと同じ。英語はこれだけで事足りる。===U+0080~U+00FF ラテン1補助===ドイツ語、スペイン語、イタリア語等の西側の言語はこれで事足りる。フランス語は"Œ"が足りない。===U+0100~U+017F ラテン拡張A===フランス語、ポーランド語等多くの言語がここまでで事足りる。===U+0180~U+024F ラテン拡張B===中国語のピンインの第3声がここで登場。尤も結合文字を使うのが普通。===U+0250~U+02AF IPA拡張===本来の使い方は、隣接するアラビア文字をくっつかなくする。中学生でも知ってる発音記号がここで登場。===U+0900~U+097F デーヴァナーガリー文字===*U+0950 ॐ [[オウム真理教]]のマーク。===U+200D ‍ 幅無しジョイナー1100~U+11FF ハングル字母===本来の使い方は、隣接するアラビア文字をくっつく形にする。ハングルは1つの文字を初声(子音)+中声(母音)[+終声(子音)]を表す高々3つの部品(字母という)の組み合わせで表す。ここには現在では使われない字母も入って、組み合わさって表示するこになっているのだが、完全に実装したシステムはあんのか?===U+2000~U+206F 一般句読点===スペースやハイフンだけでも種類が沢山。「かける様」の文字列は[[livedoor したらば掲示板]]の全体NGワードになってるので、[[ライブドア愚民社会を考える掲示板]]に対策され現在は使用不可ではNGワードを回避するのにここの見えない文字達が利用される。====「かける様」の中に入れられることのある主な文字====*U+2009   細いスペース 200C ZERO WIDTH NON-JOINER 両側のアラビア文字を続かない形にする。この文字自体は見えない。*U+200A   極細スペース200D ZERO WIDTH JOINER 両側のアラビア文字を続く形にする。この文字自体は見えない。以下は[[ライブドア]]に対策されているので現在は利用不可。*U+200B ZERO WIDTH SPACE 幅無しでジャスティフィケーションにも影響しないスペース。本来は単語途中で改行させたい時に入れる。*U+FEFF ZERO WIDTH NO-BREAK SPACE 幅無しでここで改行もしないスペース。本来はテキストファイルの文頭において、リトルエンディアンかビッグエンディアンかを判断させる為にある。U+FFFEは文字ではないことになっているので、こっちが出て来たら逆に解釈すれば良いという事になる。====使用例==== 入力:救世主かける� 幅無しスペース様万歳!! 表示:救世主かける様万歳!!===U+2100~U+214F 文字様記号===ℂ(U+2102)、ℝ(U+211D)や、文字とは別に単位の記号もある(気付いてないだけかも知れんが、使い分けされてるのを見たことない)。===U+2600~U+26FF 様々な記号===☢(U+2622)、☣(U+2623)、☭(U+262D)、☺(U+263A)や、天気、八卦、十二星座、チェス等の記号が多数。===U+3040~U+309F ひらがな===合字ゟ(より)。===U+30A0~U+30FF カタカナ===合字ヿ(コト)。またヴァ行を表すのに使われたことがある、ワ行に濁音が付いたのもある。===U+31F0~U+31FF カタカナ拡張===アイヌ語に使う小文字のカタカナ16種類。===U+4E00~U+9FFF CJK統合漢字===中日韓(CJK)の漢字をごっちゃにして、よく似た文字は1つに統合して、部首順に並べたもの。この統合が曲者で、国によって字形が違う漢字でもよく似た文字は統合してしまった(例えば「骨」は中国では鏡文字)為、プレーンテキストでは中日韓の漢字を混ぜられないようになってしまった。それ故日本で最も評判が悪いのがここ。欧米人に言わせれば、「こんだけ多大な領域を割り当ててやってんのに極東の連中はまだ満足せんのかい」みたいな感覚なんでしょうかねえ。また「浅」は統合しても「桟」と「栈」は統合されていないなどミスも多発している。===U+AC00~U+D7FF ハングル音節===現在使われるハングル字母は、初声19種類、中声21種類、終声27種類。それらが組み合わさった形で論理的にあり得る全ての文字19×21×(27+1)=11172文字を収録している。が、実際はこれの半分も使われない。===U+D800~U+DFFF サロゲート===当初Unicodeは16ビット65536文字の中に全部押し込めようとしたが、勿論その計画は破綻し、ここの2048文字を組み合わせて1024*1024=1048576文字を新たに表現することにした。===U+E000~U+F8FF 私用領域===外字もここ。===U+F900~U+FAFF CJK互換漢字===本来は統合対称だが、既存の文字コードで別扱いされている文字は、互換の為こっちに押し込められる。===U+FB50~U+FDFF アラビア表示形A===1つの特別な単語の表示形も入っていたりする。何故かここについて触れている日本語のページが全然出て来ないのでここで一部紹介。*U+FDF2 (الله/アッラーフ) アッラー。専用のコードポイントがあるとか流石神。*U+FDF3 (اكبر/アクバル) 偉大。*U+FDF4 (مهمد/ムハンマド) ムハンマド。これなんかもはや1つの文章。*U+FDFA (صلى الله عليه وسلم/サッラッラーフ・アライヒ・ワ・サッラム) 彼にアッラーの祝福と平安あれ;ムハンマドの後に毎回添える。*U+FDFD (بسم الله الرحمن الرحيم/ビスミッラーヒッラフマーニッラヒーム) 慈悲遍く慈愛深きアッラーの御名において;クルアーンの冒頭。===U+FE70~U+FEFF アラビア表示形B===ご存知アラビア文字は独立、語頭、語中、語尾によって形が変わるので、それぞれの形がここに入っている。悪魔で表示形なので、実際にこっちを入力する訳ではない。===U+FFF0~U+FFFF 特殊文字===本来の使い方は、長い単語の中に入れておくと、行がはみ出した時にそこで改行してくれる。悪名高きルビタグもあるが、実装してるシステムあんのか?
==収録されなかった主な文字==*クリンゴン文字*神代文字*U+FEFF  幅無し改行しないスペース BETTY BOOP意味無いやないか、と言ってはいけない。本来はテキストファイルの先頭に置いて、上位バイトが先か下位バイトが先かを判断するのに使うものである。*将軍様専用ハングル
==使用例リンタ== 入力:救世主かける‌様万歳!! 表示:救世主かける様万歳!!*[http://www.unicode.org/ Unicode Consortium]