「Unicode」を編集中

ナビゲーションに移動 検索に移動

警告: ログインしていません。編集を行うと、あなたの IP アドレスが公開されます。ログインまたはアカウントを作成すれば、あなたの編集はその利用者名とともに表示されるほか、その他の利点もあります。

この編集を取り消せます。 下記の差分を確認して、本当に取り消していいか検証してください。よろしければ変更を保存して取り消しを完了してください。

最新版 編集中の文章
1行目: 1行目:
'''Unicode'''(ユニコード)とは、古今東西の全ての文字を1つの文字コードセットに入れようという試みである。
+
'''Unicode'''(ユニコード)とは、全世界共通の文字コードである。
マイクロソフトやジャストシステム等が参加するユニコードコンソーシアムにより作られている。
 
Windowsや[[ニンテンドーDS]]等にも採用され、今後の世界標準になる見込みである。
 
UnicodeでのコードポイントはU+XXXXのように表す。
 
実際の符号化方式にはUTF-8(欧米優遇)、UTF-16(U+10000以降は4バイト)、UTF-32(サイズでかすぎ)等がある。
 
  
==基本多言語面(BMP, U+0000~U+FFFF)==
+
==概要==
===U+0000~U+007F 基本ラテン===
+
漢字はCJK統合漢字と言って、中日韓で微妙に形が違う漢字は1つのコードポイントに統合されている訳だが、「浅」は統合しても「桟」と「栈」は統合しないとかミスが多発している、どうすんの。また、「CJK」と極東を一括りにすることによって一部の人達が怒ってきそうである。漢字なんて元々中国からのパケリなのにね(^ДД^)
アスキーと同じ。英語はこれだけで事足りる。
+
最近は線文字Bとか楔形文字とかも追加されていて、昔なのか現代なのか分からなくなって来ている。ファイストスの円盤も追加予定(未解読だろ)、神代文字は却下された(当たり前)。
===U+0080~U+00FF ラテン1補助===
 
ドイツ語、スペイン語、イタリア語等の西側の言語はこれで事足りる。フランス語は"Œ"が足りない。
 
===U+0100~U+017F ラテン拡張A===
 
フランス語、ポーランド語等多くの言語がここまでで事足りる。
 
===U+0180~U+024F ラテン拡張B===
 
中国語のピンインの第3声がここで登場。尤も結合文字を使うのが普通。
 
===U+0250~U+02AF IPA拡張===
 
中学生でも知ってる発音記号がここで登場。
 
===U+0900~U+097F デーヴァナーガリー文字===
 
*U+0950 ॐ [[オウム真理教]]のマーク。
 
===U+1100~U+11FF ハングル字母===
 
ハングルは1つの文字を初声(子音)+中声(母音)[+終声(子音)]を表す高々3つの部品(字母という)の組み合わせで表す。
 
ここには現在では使われない字母も入って、組み合わさって表示するこになっているのだが、完全に実装したシステムはあんのか?
 
===U+2000~U+206F 一般句読点===
 
スペースやハイフンだけでも種類が沢山。
 
「かける様」の文字列は[[livedoor したらば掲示板]]の全体NGワードになってるので、
 
[[愚民社会を考える掲示板]]ではNGワードを回避するのにここの見えない文字達が利用される。
 
====「かける様」の中に入れられることのある主な文字====
 
*U+200C ZERO WIDTH NON-JOINER 両側のアラビア文字を続かない形にする。この文字自体は見えない。
 
*U+200D ZERO WIDTH JOINER 両側のアラビア文字を続く形にする。この文字自体は見えない。
 
以下は[[ライブドア]]に対策されているので現在は利用不可。
 
*U+200B ZERO WIDTH SPACE 幅無しでジャスティフィケーションにも影響しないスペース。本来は単語途中で改行させたい時に入れる。
 
*U+FEFF ZERO WIDTH NO-BREAK SPACE 幅無しでここで改行もしないスペース。本来はテキストファイルの文頭において、リトルエンディアンかビッグエンディアンかを判断させる為にある。U+FFFEは文字ではないことになっているので、こっちが出て来たら逆に解釈すれば良いという事になる。
 
====使用例====
 
入力:救世主かける‌様万歳!!
 
表示:救世主かける‌様万歳!!
 
===U+2100~U+214F 文字様記号===
 
ℂ(U+2102)、ℝ(U+211D)や、文字とは別に単位の記号もある(気付いてないだけかも知れんが、使い分けされてるのを見たことない)。
 
===U+2600~U+26FF 様々な記号===
 
☢(U+2622)、☣(U+2623)、☭(U+262D)、☺(U+263A)や、天気、八卦、十二星座、チェス等の記号が多数。
 
===U+3040~U+309F ひらがな===
 
合字ゟ(より)。
 
===U+30A0~U+30FF カタカナ===
 
合字ヿ(コト)。またヴァ行を表すのに使われたことがある、ワ行に濁音が付いたのもある。
 
===U+31F0~U+31FF カタカナ拡張===
 
アイヌ語に使う小文字のカタカナ16種類。
 
===U+4E00~U+9FFF CJK統合漢字===
 
中日韓(CJK)の漢字をごっちゃにして、よく似た文字は1つに統合して、部首順に並べたもの。
 
この統合が曲者で、国によって字形が違う漢字でもよく似た文字は統合してしまった(例えば「骨」は中国では鏡文字)為、
 
プレーンテキストでは中日韓の漢字を混ぜられないようになってしまった。それ故日本で最も評判が悪いのがここ。
 
欧米人に言わせれば、「こんだけ多大な領域を割り当ててやってんのに極東の連中はまだ満足せんのかい」みたいな感覚なんでしょうかねえ。
 
また「浅」は統合しても「桟」と「栈」は統合されていないなどミスも多発している。
 
===U+AC00~U+D7FF ハングル音節===
 
現在使われるハングル字母は、初声19種類、中声21種類、終声27種類。
 
それらが組み合わさった形で論理的にあり得る全ての文字19×21×(27+1)=11172文字を収録している。
 
が、実際はこれの半分も使われない。
 
===U+D800~U+DFFF サロゲート===
 
当初Unicodeは16ビット65536文字の中に全部押し込めようとしたが、勿論その計画は破綻し、
 
ここの2048文字を組み合わせて1024*1024=1048576文字を新たに表現することにした。
 
===U+E000~U+F8FF 私用領域===
 
外字もここ。
 
===U+F900~U+FAFF CJK互換漢字===
 
本来は統合対象だが、既存の文字コードで別扱いされている文字は、互換の為こっちに押し込められる。
 
===U+FB50~U+FDFF アラビア表示形A===
 
1つの特別な単語の表示形も入っていたりする。何故かここについて触れている日本語のページが全然出て来ないのでここで一部紹介。
 
*U+FDF2 (الله/アッラーフ) アッラー。専用のコードポイントがあるとか流石神。
 
*U+FDF3 (اكبر/アクバル) 偉大。
 
*U+FDF4 (مهمد/ムハンマド) ムハンマド。
 
これなんかもはや1つの文章。
 
*U+FDFA (صلى الله عليه وسلم/サッラッラーフ・アライヒ・ワ・サッラム) 彼にアッラーの祝福と平安あれ;ムハンマドの後に毎回添える。
 
*U+FDFD (بسم الله الرحمن الرحيم/ビスミ・ッラーヒ・ッラフマーニ・ッラヒーム) 慈悲遍く慈愛深きアッラーの御名において;クルアーンの冒頭。
 
===U+FE70~U+FEFF アラビア表示形B===
 
ご存知アラビア文字は独立、語頭、語中、語尾によって形が変わるので、それぞれの形がここに入っている。
 
悪魔で表示形なので、実際にこっちを入力する訳ではない。
 
===U+FFF0~U+FFFF 特殊文字===
 
悪名高きルビタグもあるが、実装してるシステムあんのか?
 
  
==補助多言語面(SMP, U+10000~U+1FFFF)==
+
==主な(?)利用方法==
===U+10000~U+100FF 線文字B===
+
「かける様」の文字列は[[したらば掲示板]]の全体NGワードになってる訳だが、色んな幅のスペースや見えない文字とかがUnicodeには天こ盛りなので、それらの文字を「[[かける様]]」の中に入れることによって外見は何も変わりなくNGワードを回避することが出来る。但し名前やスレのタイトルには使えない。
仮名文字と同じシステムを持つ、クレタ島で見つかった。'''字形が部分的にしか分かっていない'''文字がある。
 
===U+101D0~U+101FF フェイストスの円盤===
 
テキストが1枚しか無い為このままで永久に解読不可能な文字。こんなん追加して良いのか????
 
===U+13000~U+1342F ヒエログリフ===
 
今の所無いけど、カルトゥーシュとかどうするんだろう?
 
===U+1F000~U+1F0FF 麻雀牌、ドミノ牌、トランプ===
 
パンドラの箱開きまくり爆死
 
===U+1F300~U+1F5FF 絵文字等===
 
これの収録は日本でもニュースになった。携帯会社が追加する度に増えるのか?
 
  
==補助漢字面(SIP, U+20000~U+2FFFF)==
+
==主な文字==
全部漢字。4万字以上が収録されているがミスが多い。
+
===U+200C ‌ 幅無しノンジョイナー===
 +
本来の使い方は、隣接するアラビア文字をくっつかなくする。
  
==第三漢字面(TIP, U+30000~U+3FFFF)==
+
===U+200D ‍ 幅無しジョイナー===
甲骨文字等小学生でも知っている文字が収録予定。
+
本来の使い方は、隣接するアラビア文字をくっつく形にする。
  
==補助多用途面(SSP, U+E0000~U+EFFFF)==
+
===[[ライブドア]]に対策され現在は使用不可===
制御文字が入る。言語タグは[[オウム真理教|ポア]]予定(?)、異体字セレクタは漢字用に使われる。
+
*U+2009   細いスペース
BMPのが使われないのは16文字の取り合いを防ぐ為?
+
*U+200A   極細スペース
 +
*U+200B ​ 幅無しスペース
 +
本来の使い方は、長い単語の中に入れておくと、行がはみ出した時にそこで改行してくれる。
  
==収録されなかった主な文字==
+
*U+FEFF  幅無し改行しないスペース
*クリンゴン文字
+
意味無いやないか、と言ってはいけない。本来はテキストファイルの先頭に置いて、上位バイトが先か下位バイトが先かを判断するのに使うものである。
*神代文字
 
*BETTY BOOP
 
*将軍様専用ハングル
 
  
==今後の予定==
+
==使用例==
永遠未解読文字、[[ゲーム]]用の記号、絵文字等々何処まで文字なのか?パンドラの箱が開きまくっているが、
+
入力:救世主かける‌様万歳!!
今後も西夏文字、梵字、トンパ文字、変体仮名等が追加される予定。
+
表示:救世主かける‌様万歳!!
個人的には渡邊さんよりも日本漢字と中国漢字の違いをプレーンテキストで表現出来るようにして欲しいんですけどNE(水素爆死
 
 
 
==語録==
 
*芦田さんは[[兵庫県|芦屋]]のお嬢様だ
 
 
 
==リンタ==
 
*[http://www.unicode.org/ Unicode Consortium]
 
*[http://www.unicode.org/charts/unihan.html Unihan Database] 漢字の各文字コードでの割り当てや辞書での番号、発音、字義等が分かる
 
*[http://www.unicode.org/ivd/ Ideographic Variation Database] 異体字リスト
 
 
 
{{DEFAULTSORT:ゆきこおと}}
 
[[category:情報]]
 
[[category:秀逸な記事]]
 

Kakerunpediaへの投稿はすべて、他の投稿者によって編集、変更、除去される場合があります。 自分が書いたものが他の人に容赦なく編集されるのを望まない場合は、ここに投稿しないでください。
また、投稿するのは、自分で書いたものか、パブリック ドメインまたはそれに類するフリーな資料からの複製であることを約束してください(詳細はKakerunpedia:著作権を参照)。 著作権保護されている作品は、許諾なしに投稿しないでください!

取り消し 編集の仕方 (新しいウィンドウで開きます)