コンテンツにスキップ

Wikipedia:井戸端/subj/文字参照の是非

文字参照の是非

[編集]

以前Wikipedia‐ノート:表記ガイドにて提起したものですが反応に乏しく、こちらで大勢に知らせるのが適当と思い改めて書きます。

本文中に特殊文字を書く際に文字参照を使うべきか否かを明確にしておくべきだと思います。そして私は「使うべきでない」と思います。私の体験として、編集をしていて文字参照があった場合、どこがどの字に対応しているかわからず、また検索ができないため編集箇所を見つけづらい不便を感じます。また、仮に文字参照を使うべきである/使わなければならないとなった場合、入力の際に文字参照に変換する手間がかかります。文字参照の利点は、「特殊文字に非対応の外部エディタで編集ができる」ことがノート:表記ガイドで挙げられましたが、私の環境ではさほど問題を感じないためこれがどれほど重要なことなのかが分かりません。これの重要性、また他の文字参照の利点についても意見をお願いします。

署名を忘れていました。失礼しました。上記は私の文章です。--いかづちSqueak 2009年5月23日 (土) 12:59 (UTC)[返信]

わたしも、使うべきではないと考えます。文字参照を用いてソースを書いた場合、ページのソースを取得しての自動処理がうまくいかなくなる場合があります。つまり、Botなどの処理が困難になります。ダンプなどを2次利用してアプリケーションなどから参照する場合も、うまくいくとは限らないでしょう。ウィキペディアにおける検索でも制限を受けることがあります。通常、検索結果の表示では、ヒットした文字列の前後のソースが表示されますが、文字参照を用いている場合、このソースが表示されません。外部エディタについては、その文字をデータとして取り扱うことができることと、そのフォントがあって表示できることは別だと思います。取り扱えないのであれば言語間リンクなど文字化けして壊れるし、OSにフォントがあってもそのツールで表示できないというのであれば、そもそもその文字列をそのツールで編集するべきではありません。いろいろな環境があると思いますが、Mac OS X はおおむね問題ない、Unix系を使っているひとはさすがに自分でどうにかできるだろう、で、Windows xp SP3 のワードパッドでいろいろやってみると、OSがそのフォントを持っていれば普通に表示されて編集できました。--Mymelo 2009年5月23日 (土) 21:28 (UTC)[返信]
「祥」は「祥」と記述しないとならば「祥」となってしまいますし。「祥」の「&」は「&」と記述しないと「祥」となってしまいますし。必要な箇所では使用して良いのではないでしょうか? --ひゃくまんこのしあわせ 2009年5月25日 (月) 02:33 (UTC)[返信]
>mymeloさん なるほど、自動処理などにも影響があるのですね。問題は予想以上に深そうです。外部エディタについてですが、ある文字を(データとしては扱えるが)表示できないエディタであっても、その他の面で便利であったり、利用者がそれに慣れているなどの場合、それを使うなと言っていいものでしょうか。たとえば私の愛用しているEmEditorというエディタは多言語対応がいまひとつで、ハングルや簡体字などのメジャーな文字でも場合によって表示できません。私はそのような場合はメモ帳を使いますが(そもそも外部エディタはあまり使わないが)、どうしてもEmEditorの検索/置換機能を使いたいという人もいるでしょう。そのような利用者に不便を強いていいものかが多少疑問ではあります。
>ひゃくまんこのしあわせさん 後者はともかく前者はまったく知りませんでした。もちろん他に記述法が無い場合であれば使ってもよいでしょう。しかしこれはどういう仕組みなのでしょうか。今回の議論とは別に、もっと周知させるべき問題に思います。 --いかづちSqueak 2009年5月26日 (火) 09:54 (UTC)[返信]
ひゃくまんこのしあわせさんが例示されたような、どうしても使用しなければばらない場合は限定して使用してよい(代替手段がないので使用するしかない)と思います。Wikipedia:表記ガイド#使用可能な文字Help:特殊文字#特殊文字を入力するにはだと、文字参照を推奨しているようですが、事情もかわってきており、直接入力できるけれど、編集時の文字化け防止のために使うというのであれば、そろそろ直接その文字を使うようにしていけるんじゃないかと思います。お気に入りのエディタが使いたい、という気持ちはわかりますが、外部リンクなど壊す危険があるツールは、そうしたリスクのある記事では使用すべきではないのではないでしょうか。記事にも編集者にも個々の事情があるため、いま使用されているものを修正すべきだとも、断固禁止すべきだとも思いませんが、今後記事を執筆するにあたり、使用しなくても済む(書けて表示できる)場合は、使うべきではないとう方向に向かうといいな、と考えます。--Mymelo 2009年5月27日 (水) 16:33 (UTC)[返信]

そうでした、Wikipediaは文字参照を推奨しているのですよね。以前そのページは見ていたのですがすっかり忘れていました。事情が変わっているとのこと、同感です。携帯電話が「Unicode文字を扱えない」ことを理由に編集を禁止されていることからして、そのページの文字参照推奨の理由は時代遅れと考えて良いと思います。よって記述を文字参照非推奨に書き換えることを提案します。以下に叩き台的な意味でとりあえずの文案を書いておきます。

  1. 編集ボックスの下にリストされている特殊文字へのリンクを使う。
  2. キーボードから直接入力する(日本語入力システムを使っている場合)。
  3. (※順番入れ替え)文字コード表などの文字マップ系のアプリケーションからコピーアンドペーストする、またはOSやテキスト編集ソフトが提供する日本語以外の入力機能(言語用のキー配列インプットメソッドなど)を使用する。
  4. (※旧3と4をまとめて簡略化)HTML文字実体参照数値文字参照を使用する。例えば àや&0x5d0;など。この方式は、一部のブラウザやエディタできちんと表示されない時にも安全な方法です。

最初の方法で入力できる文字、つまり編集ボックス下のリストにある文字は、下で説明する「文字化け」を起こすことはほとんどありません。それ以外の文字で、2番めの方法、つまり日本語環境でキーボードから直接入力できる文字も、まず問題ありません。比較的安全です。どちらの方法でも入力できない文字は、編集時の文字化けを避けるため、文字をそのまま入力するのではなく、できるかぎり文字実体参照か数値文字参照で入力してください。最後の方法は、ほかの執筆者が編集できなくなったり、文字化けが起こって記事の内容を壊してしまうことがあるので、なるべく使わないでください。 どちらの方法でも入力できない文字は、編集時の検索の便のため、なるべく3番目の方法で入力してください。4番目の方法は、「祥」を「祥」と区別する場合(解説へリンク)や文字参照を変換させずに「&」を書くための「&」といった特殊な場合以外は、なるべく使わないでください。お使いのエディタで特殊文字が表示されない場合は、(〓未定〓)。

  • ※2番目の方法について、MS-IME2007では設定によっては例えば「↗」「ℵ」「𠮟」などかなり"危険"な文字も出せるため文章を改めた。('09.7/26訂正。2007には限りませんでした。--いかづちSqueak)
  • ※「検索の便のため」はもっといい言い方がないものか。
  • ※「祥」の例は別の場所に解説を作り、そこにリンクすべきだと思う。
  • ※使いやすいエディタで文字が表示できない場合数値参照を使ってもよいかはまだ議論の余地がある。

エディタの件ですが、私が問題にしているのは「データとしては特殊文字が扱え」、よって「外部リンクを壊す危険は無い」が「フォントが使えないため文字が表示されない」という場合です。EmEditorの例で言うと、このソフトは例えば日本語と韓国語が混在したファイルを開くと、ハングルが前後の文字と重なり上手く表示されなかったり、点に化けたりします。しかしデータとしては正常に扱えているので、その状態で保存してもデータを破壊することはありません。ヘブライ文字やルーンなども同様です。このようなエディタを、特性を十分に理解した上で使うユーザーにとって、数値参照を禁止されるのは負担になるのではないかと思います。なので方針としてはMymeloさんの言われた「いま使用されているものを修正すべきだとも、断固禁止すべきだとも思いません」「使用しなくても済む場合は、使うべきではない」という方向が望ましいと私も思います。

ところで、ひとえに特殊文字/環境依存文字といってもその特殊具合も様々です。分類するとすれば思いつくところで、JIS外だが非常にメジャーなLatin-1などの文字、サロゲート領域の文字、なぜか書けない「祥」の異体字の類、UnicodeBMPの文字だがフォントがないルーン文字など、langを指定しないとIEで見えない簡体字やハングル。これらをひとまとめに扱ってよいものでしょうか。

また余談ついでに、編集ボックス下の特殊記号ですが、日本語IMEで簡単に出せる「×」「÷」が入っていたり日本語環境でまず使われない「·」「•」が入っていたりと英語環境を想定した品揃えのようで、どうも使いづらく感じます。これもまた別の話題として議論すべきかなと思います。 --いかづちSqueak 2009年5月27日 (水) 19:45 (UTC)[返信]

議論が止まってしまいましたので、Wikipedia:表記ガイドおよびHelp:特殊文字のノートにこちらへの誘導を書きくわえます。なお、2箇所に共通することですので個別のノートでなくこの井戸端で議論を進めるべきだと思います。今のところ反対意見は無いようですのでさらに1週間ほど待って反対意見が出なければ書きかえようと思います。--いかづちSqueak 2009年6月12日 (金) 06:57 (UTC)[返信]
反応が遅くなり申し訳ありません。やわらかく非推奨にもっていく、いかづちSqueak の文案に賛成します。使わざるを得ない場合もけっこうあると思いますが、そういう場合以外はなるべく使わないほうがいい、というくらいに留めておけば、「特性を十分に理解した上で使うユーザー」には必要にして充分ではないかと思います。--Mymelo 2009年6月14日 (日) 16:08 (UTC)[返信]
賛同ありがとうございます。さて、「祥」などの異体字が変換される件ですが、Unicodeの等価性の問題のようです。CJK互換漢字#問題点にあるように、CJK互換漢字はその異体字と「正準等価」であり、互いに区別されることを期待してはならないとされています。そして、どうやらWikipediaに書きこんだ文章は正準等価な文字を統一する正規化を行っているようで、そのために書きかえられてしまうようです。CJK互換漢字の全て(すなわちF900~FAD9のうち互換漢字ブロックの統合漢字および文字未定義のコードポイントを除いたもの)が書きかえられることを確認しました。また、CJK互換漢字と同じく正準等価である文字を試してみたところ、「か」と「合成用゛」の2文字が一文字の「が」に、「u」と「合成用¨」と「合成用´」の3文字が一文字の「ǘ」に書きかえられることを確認しました。これを踏まえて文案をもう少し練ってみます。何か意見がありましたらお願いします。--いかづちSqueak 2009年6月15日 (月) 17:49 (UTC)[返信]

改めて文案です。

特殊文字を入力するには (←※見出し)
ウィキペディア日本語版では、(※中略)。JIS X 0208に含まれない文字をウィキテキストに入力する方法は、5つ4つあります。

  1. 編集ボックスの下にリストされている特殊文字へのリンクを使う。
  2. キーボードから直接入力する(日本語入力システムを使っている場合)。
  3. 文字コード表などの文字マップ系のアプリケーションからコピーアンドペーストする、またはOSやテキスト編集ソフトが提供する日本語以外の入力機能(言語用のキー配列インプットメソッドなど)を使用する。
  4. HTML文字実体参照数値文字参照を使用する。例えばàאなど。(※1)

最初の方法で入力できる文字、つまり編集ボックス下のリストにある文字は、下で説明する「文字化け」を起こすことはほとんどありません。それ以外の文字で、2番めの方法、つまり日本語環境でキーボードから直接入力できる文字も、比較的安全です。どちらの方法でも入力できない文字は、なるべく3番目の方法で入力してください。4番目の文字参照を使う方法は、ソースの検索などの処理が困難になるためなるべく使わないでください。ただし、以下に示すような文字参照でしか書きこめない場合には使って構いません。 (※2 この部分、先の文案から大きく変更あり)
(※以下、追加分)
文字参照でのみ書き込める文字(←※「特殊文字を入力するには」より1段低い見出し)

  1. 正準等価の文字
    Unicodeの等価性において正準等価とされている文字は、書きこみ時に自動的に変換されてしまいます。この変換を防ぎたい場合には、文字参照で書き込んでください。
    1. CJK互換漢字
      例えば「祥」「羽」といったCJK互換漢字は、対応するCJK統合漢字である「祥」「羽」と正準等価です。このため、「祥」「羽」を直接書き込むと「祥」「羽」に変換されます。変換されたくない場合は文字参照で「祥」「羽」のように書きこんでください。 (※3)
    2. 合成用文字
      例えば「か」と合成用濁点「゙」の2文字の並びは合成済みの「が」と正準等価です。別の例では、「u」、合成用ウムラウト「̈」、合成用鋭アクセント記号「́」の3文字の並びは合成済みの「ǘ」と正準等価です。
  2. HTMLの解釈を回避する場合
    HTMLの文法を解説する場合などで&#xFA1E;や<br>といった文字列を表示したい場合、そのまま入力すると文字参照やHTMLタグとして認識されてしまいます。これを回避するには「&」や「<」「>」を文字参照の「&amp;」や「&lt;」「&gt;」で書く必要があります。
  • ※1 「この方式は安全」という記述が文字参照を推奨しているように見えるので削除した。また前回の文案からだが、数値参照の例を「¡」から「א」に変更した(¡程度の文字なら参照しなくてもאくらいになると参照したくなるので)。
  • ※2 非推奨の理由を「ソースの検索などの処理が困難になるため」とした。文字参照の件は下にまとめた。「お使いのエディタで~」の記述は考えてみると特に書くことが思いつかなかったので削った。
  • ※3 文字の例は多くの環境で表示できると思われるIBM拡張文字の中から、互換漢字と統合漢字の字体の差が分かりやすいものを選んだ。文字参照は10進と16進を両方示した。

--いかづちSqueak 2009年6月16日 (火) 18:45 (UTC)[返信]

賛成 お疲れさまです。例示などとてもわかりやすくなっていると思います。支持いたします。--Mymelo 2009年6月20日 (土) 00:26 (UTC)[返信]
(賛成) いかづちSqueakさんの案に賛成。ただ厳密には、シンド語などのUnicode 2.0の文字集合に含まれない文字も実体参照で記述すべきである。Wikipedia の XHTMLソース は現在、「XML 1.0」を拡張した「XHTML1.0 Transitional」版であり、XML 1.0 の仕様ではUnicode2.0の文字集合に含まれない文字(シンド語など)は使用できないからだ。とはいえ、HTML の実装は割と緩い解釈のものが多いし、XML宣言で「version="1.0"」と宣言しているわけでもないし、肝心のシンド語版ウィキペディアも実体参照ではなくソースに直書きする仕様なので、これは特に気にするほどではないと思う。--000orz111 2009年6月21日 (日) 09:30 (UTC)[返信]
賛成ありがとうございます。XHTMLの仕様については知りませんでした。色々な規格があるとすり合わせはなかなか難しいものですね。気にするほどではないとのことですので気にしないことにします。また、文案をわずかに編集しました。内容に変化はありません。
  • CJK互換漢字をリンク
  • 文字参照の例の&0xFA3C;が文章推敲中に互換漢字の例として使っていた「屮」のもののままで、且つ表記が間違っていた(&0xでなく&#x)ので&#xFA1E;(=羽)に訂正
さて、問題提起から1ヶ月、文案提示から1週間と切りが良いので23日の夜にでも書き換えようかと思います。--いかづちSqueak 2009年6月21日 (日) 18:27 (UTC)[返信]
反対 皆さん「文字コードばかり」注目してますが、冒頭に懸念が書かれている「&amp;」(+&lt;、&gt;もですが)に対する対処が明確にまとめられていないため、現時点では同意いたしません。このまま同意が進むと、頭の弱い利用者が「&amp;」に対しても「&」に戻しかねないため。(以下余談)ハイパーリンク内の「&」は本来「&amp;」と書かなければならないのですがほとんど無視してますよね。MediaWikiでもこれらの対応はなされているのでしょうか?--Goki 2009年6月22日 (月) 01:25 (UTC)[返信]
「文字参照のみで書き込める文字」-「HTMLの解釈を回避する場合」の一番最後のところの、「で書く必要があります。」の部分を「書かなければなりません。」と変えるというのはどうでしょう。おそらく、彼らにとっては、「どうしてそうなっているか」よりも「文書にそう書いてあるから」というのが重要なのでしょうから(そういうことじゃない?)--MymeloTalk 2009年6月22日 (月) 12:35 (UTC)[返信]
(コメント)まず細かいところを突っ込む。①XHTMLソースでは(ハイパーリンク内でもどこでも)コメント以外のすべての位置で「&」は「&amp;」とと書かねばならないし、「&lt;」「&gt;」という参照はハイパーリンク(href)などの属性値内では使っても使わなくてもいいことになっている。逆に、要素内では使っても使わなくてもいいが属性値内では使わなければならない実体参照に「&quot;」とか「&apos;」がある。
で、大筋の「頭の弱い利用者が&amp;を&に戻しかねない」というGokiさんのご懸念ですが、これ自体はまったく杞憂です。②ウィキテキスト内では「&amp;」と書こうが「&」と書こうが、XHTML構文上の問題は発生しません。なぜならWikipediaがウィキテキストからXHTMLソースを出力する際自動的にエスケープされるからです。少なくとも、今のところは。もちろん、編集者の頭が弱かろうが、強かろうがです。
多少ややこしいことを言えば、ウィキテキストで「&amp;amp;」と書いてあるものを「&amp;」と修正された場合に問題は発生する。だがこれは今回の議論で扱うには趣旨が違いすぎる。
以上です。まだご懸念がおありでしょうか。--000orz111 2009年6月22日 (月) 13:12 (UTC)修正--000orz111 2009年6月22日 (月) 13:30 (UTC)[返信]
頭の弱い利用者がやるのは、文字参照するための文字列や予約されているタグを表示するために文字参照を使っているのも何にも考えず直してしまうってことじゃないでしょうか。というか、文字参照とかHTMLとかめんどくさいんで、そこらへんの知識がなくてもマークアップできたらいいよね、というのがウィキテキストの趣旨のひとつで、だから吐き出すソースには問題がないように、システム側でなんとかしますよとなっている。だから基本的には文字参照とかいらないんだけど、制限としてやっぱり使わなくてはならないときがある。でも、使わなくていいよ、というと使わなければいけないから使ってるところまで直すひとがでてきて困るんじゃない? という流れだとぼくは思ってます。だから、自動的にエスケープされるのが前提となっていての話かな、と思ったんですが、違うかな? 余談のところは、ソースとしてはエスケープしているんだけど、&amp;amp; と書かなければいけないと主張されているのかな、と解釈していて、それは現実的に無理じゃないかなあ、と思ったりしていました。--MymeloTalk 2009年6月22日 (月) 13:50 (UTC)[返信]
(コメント)Gokiさんからのレスがまだないので、Gokiさんの真意の確認ができません。だからちょっと先走ってしまう形になりますけれど、Mymeloさんの解釈されているように、Gokiさんがエスケープを前提として反対を主張されている場合もチラッと考えました。結局それでも "制限としてやっぱり使わなくてはならないとき" とか "使わなければいけないから使っているところ" というのはかなり稀なケースだと思うんですよね。今回、Wikipedia:表記ガイドの議論なので、標準名前空間に限定しますが、記事のウィキテキストで、"文字参照するための文字列や予約されているタグを表示するために文字参照を使っている" ケースなんて、それこそ XML実体参照での &amp;amp; といった2、3の例くらいしか思い浮かばなかったもので。他にももっとあるんでしょうか?
余談の方のMymeloさんの解釈は素敵な考えだと思いました。でも、あえて書かなかったんですが、ハイパーリンク内の「&」を本来通り「&amp;」と書いてしまうやっぱりエスケープ処理されてしまうんです。ちょっといやな仕様ですね。Gokiさんがエスケープ前提に話しておられると仮定すると、この事も当然ご存知だと思います。(以上の理由で自分は「Gokiさんはエスケープ前提で反対されてはいない」という解釈を取りました)。--000orz111 2009年6月22日 (月) 17:55 (UTC)[返信]
「&amp;」に対する対処としては自分としては「HTMLの解釈を回避する場合」で明確に説明したつもりでしたがこれでは不十分ということでしょうか? >Gokiさん--いかづちSqueak 2009年6月22日 (月) 20:25 (UTC)[返信]
「HTMLの解釈を回避する場合」で(普通の頭の人が)理解できるかどうか微妙です。ガイドラインなどで明文化する場合には具体例を書いて欲しいですね。あとMediaWikiでカバーしているから云々についてはMediaWikiのバグがまだつぶれていない(と私は思っている)のと今後タグが拡張される(されないとは誰も否定できませんよね)ことを考慮すると、特に「<」「>」は「&lt;」「&gt;」と書かなくてよいなんて口が裂けても言いたくないんですよ。記事のソースに「<」「>」をそのまま表示させるのを目的に「<」「>」でそのまま書かれているのを見ると正直反吐が出ます。--Goki 2009年6月23日 (火) 00:26 (UTC)[返信]
そうですね…。確かに「HTMLの解釈を回避する場合」では分かりにくいかもしれません。具体例はおいおい考えるとして、別の対処として次のように書くのはどうでしょう。
  • 以下に示すように文字参照しなければならない場合もある
  • (例)
  • これを理解していない場合、内容を破壊する恐れがあるので、文字参照を直接表記に直す編集をしてはならない
こう書いておけば知識のない初心者が誤った書き換えをすることの抑止力になると思います。また考えてみると、誤った書き換えの問題は明らかに表示の変わる「&lt;」「&gt;」「&amp;」よりもむしろ、ほぼ同じ字に変化するだけの互換漢字の方が重大かもしれません。この意味でもこの"初心者よけ"は付けるべきだと思います。
「<」「>」の直接表記の問題は全く考えていませんでした。恥ずかしながら私も「表示されればよし」という考え方でいます。これに関しては過去議論されたことは無いのではないでしょうか。そう単純に決められるものではないと思います。なお、私は今回の変更でこの現状が変わるとは思いません。「<」「>」「&」はそもそも「特殊文字」に含まれてすらいないので、今回の議論の対象とは直接関係ないと考えられます。ですので、今回の変更にこのことは盛り込まず別に議論してはどうかと思います。--いかづちSqueak 2009年6月24日 (水) 13:28 (UTC)[返信]
コメントなるほど。ウィキシンタックスのなかで、異なるスキームであるxml形式のタグを使えることにしてしまっていることにより背負ってしまっている十字架ですね(ぼくとしては非常に好みではないです)。いろいろと考えなおさなければならないかもしれないので、バグというのはどんなバグか教えてください。タグの追加については今後ともあり得ると思います(q にあたるものを追加してほしいんだけど…)。追加されたときに検索して置換はできるとは思いますが、それは担保されないでしょうね。でもその作業はしなければならないでしょう、かなしいけれど。この話を別議論にするのはぼくも賛成です。--Mymelotalk 2009年6月24日 (水) 14:24 (UTC)[返信]
コメント表題が「文字参照の是非」ですので「&」「<」「>」(あとは「'」(Wikipediaでは?無視されていますが…)「"」あたりもそうですね)について言及させてもらいました。これらを除外して議論するということなら基本的には「文字参照は使わない」ということには反対はしません。(私の本心は「&sup2;」あたりは入力が面倒くさいので使わせて欲しいですが。)--Goki 2009年6月25日 (木) 00:00 (UTC)[返信]
コメント補足します。私が細かいところにいちいち突っ込んでいろいろ文句を書いている点については「決まったルール/ガイドラインを金科玉条にして杓子定規に適用する利用者のせいで、ルール/ガイドライン本来の目的を逸脱するおそれを可能な限り排除する」が目的であることをご留意願います。(「ルール/ガイドラインを金科玉条にして杓子定規に適用する利用者」は過去にも「管理者で」いましたし、これからも出てこないとはとてもじゃないが言えません。)--Goki 2009年6月25日 (木) 00:11 (UTC)[返信]
>Gokiさん 「&amp;など除き反対はしない」旨、了解しました。文案はまだ推敲しますが、骨子には賛成して頂けたものと受け取ります。なお、あくまで「推奨しない」であって「禁止する」ではないので、使うことも許されているというルールであるつもりです。ある利用者が「参照しないと入力が面倒で編集意欲が湧かない」と考えていた場合、彼が編集を諦めるよりは、推奨しない表記であっても編集する方がWikipediaのためになると思います。またそのあと編集する人が「²」を打つのを厭わなければ直してくれるかもしれません。この辺ももう少し言及すべきかもしれません。
余談ですがMS-IMEであれば記号辞書を使う設定にすれば「²」は変換で出せますね。(その代り普通に2を打ちたいときに出て邪魔になりますが…。日常的に使うなら「^2」あたりで辞書登録?)--いかづちSqueak 2009年6月25日 (木) 14:43 (UTC)[返信]

新しい文案ができました。最近忙しかったため時間が空いてしまい大変申し訳ありません。

特殊文字を入力するには
ウィキペディア日本語版では、(※中略)。JIS X 0208に含まれない文字をウィキテキストに入力する方法は、4つあります。

  1. 編集ボックスの下にリストされている特殊文字へのリンクを使う。
  2. キーボードから直接入力する(日本語入力システムを使っている場合)。
  3. 文字コード表などの文字マップ系のアプリケーションからコピーアンドペーストする、またはOSやテキスト編集ソフトが提供する日本語以外の入力機能(言語用のキー配列インプットメソッドなど)を使用する。
  4. HTML文字実体参照数値文字参照を使用する。例えば&agrave;&#x5d0;など。

最初の方法で入力できる文字、つまり編集ボックス下のリストにある文字は、下で説明する「文字化け」を起こすことはほとんどありません。それ以外の文字で、2番めの方法、つまり日本語環境でキーボードから直接入力できる文字も、比較的安全です。どちらの方法でも入力できない文字は、なるべく3番目の方法で入力してください。4番目の文字参照を使う方法は、ソースの検索などの処理が困難になるため、以下に示す特殊な場合以外はなるべく使わないでください。ただし、以下に示すような文字参照でしか書きこめない場合には使って構いません。また、不要な文字参照は直接入力に書きかえて構いませんが、以下に示すように文字参照を使わなければならない場合が存在します。これを完全に理解していない場合、不用意な書き換えは内容を破壊する恐れがあるので十分に注意してください。
文字参照でのみ書き込める文字

  1. 正準等価の文字
    Unicodeの等価性において正準等価とされている文字は、書きこみ時に自動的に変換されてしまいます。この変換を防ぎたい場合には、文字参照で書き込んでください。
    1. CJK互換漢字
      例えば「祥」「羽」といったCJK互換漢字は、対応するCJK統合漢字である「祥」「羽」と正準等価です。このため、「祥」「羽」を直接書き込むと「祥」「羽」に変換されます。変換されたくない場合は文字参照で「&#64026;」「&#xFA1E;」のように書きこんでください。
    2. 合成用文字
      例えば「か」と合成用濁点「゙」の2文字の並びは合成済みの「が」と正準等価です。別の例では、「u」、合成用ウムラウト「̈」、合成用鋭アクセント記号「́」の3文字の並びは合成済みの「ǘ」と正準等価です。
  2. HTMLの解釈を回避する場合
    HTMLの文法を解説する場合などで&#xFA1E;や<br>といった文字列を表示したい場合、そのまま入力すると文字参照やHTMLタグとして認識されてしまいます。これを回避するには「&」や「<」「>」を文字参照の「&amp;」や「&lt;」「&gt;」で書く必要があります。
  • 入力と表示の例
ソース(直接入力) 表示 ソース(文字参照) 表示
「祥」の旧字は「祥」です。 「祥」の旧字は「祥」です。 「祥」の旧字は「&#64026;」です。 「祥」の旧字は「祥」です。
取り消し線は<del>と</del>で囲みます。 取り消し線はで囲みます。 取り消し線は&lt;del&gt;と&lt;/del&gt;で囲みます。 取り消し線は<del>と</del>で囲みます。

変更点は以下の2点です。

  • 文字参照を直接入力に書き換える際の注意書きを付けた。
  • 表示例を付けた。
(合成用文字(例: 「ǘ」vs「ǘ」)については表示上の変化がなく分かりづらいため表示例は示さなかった。)

意見をお待ちしています。なお本題には関係ありませんが一つ訂正があります。先日「IME2007は設定により危険な文字が出る」と書きましたが2007には限りませんでした。以前のIMEでも同様に設定で危険な文字が出ました。--いかづちSqueak 2009年7月26日 (日) 11:35 (UTC)[返信]

先の提起から1ヶ月が経ちましたが、意見が寄せられませんでした。議論を尽くしたか少々不安ではあるものの反対意見なしということで書き換えようと思…ったのですが、最後にと思い色々と調べてみたところ、一つ重要な問題が見つかりました。

  • オングストローム記号「Å」はラテン大文字リング付きA「Å」と正準等価。

ÅはJIS第1水準にも入っているメジャーな文字ですので、これが(実質的に同じ文字とはいえ)別の文字に変化してしまうのは少々問題だと思います。よってこれも例に加えるべきかと思いますが、折角なのでここまで来たら正準等価の文字を全て当たってみて、その上で例を書き換えてまた案を示したいと思います。--いかづちSqueak 2009年8月26日 (水) 13:37 (UTC)[返信]