特集 2020年3月26日

文字化けでよく出てくる漢字の意味を調べて愛でる

文字化けをひたすら愛でます。

インターネットといえば、文字化け。最近はあまり見ることがなくなったが、それでもたまに遭遇する文字化け。我々は文字化けを嫌いすぎている。もっと、文字化けを愛すべきではないか?

1992年三重生まれ、会社員。ゆるくまじめに過ごしています。ものすごく暇なときにへんな曲とへんなゲームを作ります。

前の記事:無糖の飲みものに砂糖を入れる

> 個人サイト ほりげー

インターネットは文字化けと共にある

インターネットが普及して20年をゆうに超える。メール、添付ファイル、Webブラウザなど、様々な場面で我々は文字化けに苦しめられてきたし、今でもたまに苦しめられる。「文字が化ける」と書いて文字化け。そこにはお化けみたいで悪いイメージがあるが、それも仕方がない。読めないのだから。必要な情報が読めないのはシンプルに悪いことだ。

001.PNG
DPZの記事を無理やり文字化けさせてみると、こうなる。

でも、一方的に文字化けを避けていては、文字化けと仲良くなれない。文字が化けた先にあるのは文字だ。化ける前の文字ばかり愛していては、化けた後の文字がかわいそうではないか。我々は、化けた後の文字をもっと愛すべきなのだ。

文字化けを調べる

文字化けでよく見る文字ってなんだろう。そんな疑問から、まずは「文字化けランキング」を作ってみた。調査方法はこうだ。


文字化けの調査方法

  1. DPZで2020年2月に公開された全記事(ただし、べつやくさんなどの画像ベースの記事は除く)を取得し、全記事をひとつのテキストファイルにまとめ、保存する。
  2. サクラエディタを使って、様々な文字化けを発生させ、保存する
  3. 各文字の出現回数をカウントするプログラムを作り、プログラムを実行し、文字化けランキングを作成する。
002.PNG
2月に公開された全記事を1つにまとめると、文字数は43万文字!

003.PNG
サクラエディタで文字化けを発生させる。今回は6種類の文字化けを試した。
005.PNG
各文字の出現回数カウントプログラム。プログラミングは思わぬ時に役立つ。

006.PNG
プログラムを実行すると、文字化けのランキングができた!

文字化けのランキングができた。結果はこんな感じ。(UTF8とかSJISとかについては後でくわしく説明します。)

007.png
例えば、UTF8→SJISの文字化けで最も多いのは、「縺」という文字。

DPZの2月の記事をすべてUTF8→SJISで文字化けさせると、「縺」は101982回も出現する。多いな・・・。

せっかくなので、文字化け無しの状態で、文字の出現回数カウントプログラムを実行してみた。

008.png
これは今回の記事の趣旨とは関係ないですが、2月にDPZの記事で最も使われた文字は、「い」です!!!!!

 

いったん広告です

文字化けを愛でる

ランキングに従い、さっそく文字化けを愛でていこう。ランキング上位の文字から、私の独断と偏見で「形がかっこいい漢字」を厳選する。

009.PNG
独断と偏見で選ばれたかっこいい漢字。文字化けではよく分からない記号やハングルなども発生するが、まずは身近な漢字から愛していきたい。UTF8→SJISのTOP4を占める、「糸へん四天王」(と私が勝手に呼んでいる)をはじめ、「金に悪い」と書く「鐚」など、とにかくかっこいい漢字が並ぶ。

さて、これらの漢字をどう愛でるか。考えた末にたどり着いたのはプラ板だ。

010.jpg
文字化けした漢字を印刷し、そのうえにプラ板を置く。

011.jpg
文字化けをトレースする。さながら、現代版写経である。文字化けでよく見る漢字のかっこよさをこの手で感じながら書いていく。
012.jpg
オーブンで焼かれる文字化け。

013.jpg
できた。文字化けキーホルダー。かわいい~。

014.jpg
小さいほうは文字化けイヤリングにもなる。しかも暗闇で光る。

 

Tシャツも作る

せっかくなので文字化けTシャツも作った。インターネットで1枚からオリジナルTシャツを作ってくれるサービスを使った。わざと文字化けさせた状態で発注したので、担当者さんが気を利かせて文字化け前の文字に修正しないか心配だ。

015.jpg
数日でTシャツが届いた。文字化けTシャツだ!これは、有名な「極度乾燥(しなさい)」を文字化けさせたものである。極度乾燥(しなさい)を文字化けさせると、「讌オ蠎ヲ荵セ辯・(縺励↑縺輔>)」になる。かっこいい!

 

文字化けの仕組み

ここでちょっと一息。せっかくなので文字化けの仕組みについて説明させてほしい。出来るだけ簡単に伝えるためデフォルメしてやや不正確になっている部分もあるが、そこはご容赦いただきたい。あと、そもそも文字化けの仕組みに興味がない人はページをグっとスクロールして西村さん登場のところまでスキップしてください。

そもそも文字化けはなぜ発生するのか。それは、文字コードと呼ばれるものに秘密がある。コンピュータの世界では、あらゆるデータは0と1で表現される。当然、文字も0と1の連なりで表現する。そうすると、「0や1の連なりを文字に置き換えるルール」が必要になる。このルールが文字コードと呼ばれるものだ。ルールがこの世に1つしかなければ簡単なのだが、実際にはルールが何種類もあるからやっかいだ。

016.PNG
文字は、コンピュータの世界では0と1の連なりである。

017.PNG
これをUTF-8という文字コードのルールで解釈すると、「ほり」となる。

ところが、これを別の文字コードのルールで解釈するとどうなるか。

018.PNG
さきほどと同じものをShift_JIS(今回はSJISと呼ぶ。)という文字コードのルールで解釈すると、「縺サ繧」となる。

SJISはUTF-8とは別のルールなので正しく解釈することが出来ず、文字化けが発生した。このように、0と1の連なりを想定と異なる文字コードで解釈すると文字化けが発生する。例えるならば、フランス語で書かれた文章を英語だと思って無理やり読もうとしているようなものだ。

文字化けの仕組みをもう少しだけ詳しく

文字化けのイメージはつかめたと思うので、もう少しだけ詳しく説明させてください。苦痛なら次の章の西村さんまでスキップしてください。

UTF-8の文字コードで書かれた0と1の連なりをSJISとして解釈する際の文字化けを、もう少し詳しく説明する。ただし、これ以降の説明で0と1の連なりをいちいち書いていると目がしょぼしょぼするので、そのときは0と1の連なりを4桁ずつに区切り、4桁を0~9の数字1文字かA~Fのアルファベット1文字で表すことにする。すなわち、2進数から16進数への変換だ。

019.png
2進数と16進数の変換表。このあと2進数と16進数を行ったり来たりするので、何回かこの表を使います。

UTF-8は、世界中の文字のほとんどを網羅したUnicodeという辞書を、コンピュータが扱いやすいように変換したものである。日本語の文字をUTF-8で表す際のルールは次の通り。

UTF-8の変換ルール

  1. Unicodeの16進数を2進数に変換し、並べる
  2. 左に「1110」を付け足す
  3. 8桁、6桁、6桁に分け、6桁のグループの左側に「10」を付け足す

たとえば、「ほ」はUnicodeでは「307B」で表される。これをUTF-8で表してみよう。

020.png

「ほ」はUTF-8では、「111000111000000110111011」と表される。目がしょぼしょぼするので、これを4桁ずつに区切って2進数を16進数に変換すると、「E381BB」となる。

コンピュータの仕組みがわかるとぞくぞくしませんか?いよいよこれをSJISで解釈してみる。文字化けの瞬間に立ち会おう。

SJISの解釈のルールはすごく簡単。(かなりデフォルメしています。)


SJISの解釈ルール

  1. 16進数を4桁ずつ区切る
  2. 区切った4桁を2桁ずつに分け、大きい表から該当箇所を探す
  3. 2桁余った場合は、2桁を1桁ずつに分け、小さい表から該当箇所を探す

021.png

ここで、「大きい表」というのは実際には「2バイトコード(全角文字)のエリアマップ」、」「小さい表」というのは「1バイトコード(半角文字)のエリアマップ」と呼ばれるものです。詳しくはこちらに載ってます。

これで、「ほ」がUTF-8で「E381BB」と表され、これをSJISで解釈して、「縺サ」となった。実は、変換の性質上、ひらがなやカタカナをUTF-8からSJISに変換すると、多く場合、「縺」「繧」「繝」のどれかが登場する。これが文字化けのときに糸へんの漢字がよく出る理由だ。(もっと詳しく知りたい方はこちらを読むと詳しくなれます。)

文字化けの仕組み、おわかりいただけただろうか。ちょっとでもわかった気になってもらえると嬉しいです。わかるとより愛せると思うので。

いったん広告です

文字化け後の漢字について詳しくなりたい

文字化けの仕組みはわかったが、文字化け後の漢字のことを私は何も知らない。「縺」「繧」「繝」。これらはれっきとした漢字であり、読み方が存在し、意味が存在するはずである。文字化け後の漢字のことをちゃんと知って、もっと文字化けと仲良くなりたい。

漢字と言えば、当サイトライターの西村さん。というわけで、西村さんに文字化け後の漢字について伺うことにした。編集部の石川さんにも撮影協力してもらった。

022.JPG
用意してもらった漢字辞典。数冊あれば十分だと思っていたが、なんと数十冊も用意してくれた。多い…。

西村さんといえば国語辞典収集だ。国語辞典を集めるついでに漢字辞典も集まったという。将棋の羽生善治九段が趣味のチェスも強いのに似ている。ガチの人の「ついで」はつよい。

(実際には漢和辞典と漢字辞典がありますが、今回の記事では統一して漢字辞典と呼ぶことにします。)

大漢和辞典がすごい

たくさん用意してもらった中でひときわ目を引くのが、諸橋轍次(もろはしてつじ)著の大漢和辞典。下にずらっと並んでいる古そうな辞典だ。

023.jpg
完成するまでに75年もかかったらしい。一人分の人生だ…。
024.JPG
このうち1つは索引用の巻である。ふつうの漢字辞典より厚いのに、ここには意味が載っていない。ただ漢字を探すためだけの巻だ。
025.JPG
索引用の巻には、目当ての漢字が何巻の何ページに載っているかが書かれている。ただそれだけだ。

026.JPG
音訓索引が面白いんですよ、と「おこったいぬのさま」という読みを見せてくれる西村さん。そんな読み方の漢字があるのか!(実際にはそう読むのではなく、そういう意味の漢字が音訓索引に載っているということだそうです。)

027.JPG
四角号碼という索引方法がある。漢字の四隅の形に基づいて4桁の数字を作り、それで漢字を探すというもの。話を聞いたがさっぱりわからなかった。

とにかく、大漢和辞典はめちゃくちゃすごそうだ。これを使って文字化け漢字の意味を知りたい。

糸へん四天王の意味を調べる

まずはUTF8→SJISの文字化けTOP4である、「縺」「繧」「繝」「縲」の意味を調べる。糸へん四天王だ。

どれも糸へんなので、部首から調べたいところだが、驚くべきことに「大漢和辞典」の索引巻には部首索引がない。何ということだ…。そこで、総画数を元に調べる。まずは「縺」の画数を数える。

028.JPG
ほり「18画ですね」西村さん「17ぐらい?」石川さん「16じゃないですか?」意見が分かれる3人。ここを間違えると絶望的だ。(17画でした。)

しかし、総画数が分かったところで、同じ画数の漢字がそもそもたくさんあるので絶望的だ。そこで我々は「縺」の右側が「レン」と読めることに着目し、「レン」で音訓索引をすることにした。「レン」と読む漢字はたくさんあるが、画数の小さい順に書かれているのでいつかは見つかる。

029.JPG
これだ!!!8巻の1160!

030.jpg
じゃーん!「縺」の意味!!たったこれだけ…。「もつれる」「糸がむすぼれてとけない」「縺縷(れんる)=寒さを防ぐ具」などとある。

「縺」自体は「もつれる」という意味で、「縺縷」が「寒さを防ぐ具」という意味を持つ。縺縷、気になる…。インターネットで調べても全然出てこない。

西村さん「寒さを防ぐ具ってどんなんでしょうね?上着みたいなものかなぁ。国語辞典持ってきましょうか?」

国語辞典も並べると大変な量になるので、とりあえず先に進むことにした。いつか想像で縺縷を作る、「俺たちの縺縷選手権」を開催したい。

せっかくなので他の漢字辞典でも「縺」を調べさせてもらった。

031.JPG
西村さんが深センの本屋さんで買ったという「康煕字典」の復刻版。今使われている漢字の形は、基本的にこの字典が元になっている。
032.JPG
中身は漢字ぎっしりで読めない。文字化けを超える読めなさだ。なお、康煕字典については、原本を持ってる人への西村さんの取材記事もある。

康煕字典はレベルが高すぎるので、思い切って最近の漢字辞典で調べることにした。

033.JPG
載ってた。ただし「縺縷」という用法は載っていない。

西村さんに別の漢字辞典でも「縺」を調べてもらった。純粋に糸のもつれでなく「話のもつれ」のように比ゆ的に使う用法は、日本だけの用法らしい。複数の漢字辞典の結果を簡単に整理する。

縺(レン)

  • もつれる
  • 「縺縷」は、寒さを防ぐ具

楽しい。「縺」の意味を調べるだけで30分以上も時間がかかった。もちろん多くの話の脱線があったが…。漢字辞典は一度に多くの情報が入るので、話の脱線がどうしても多くなる。それが良いのだ。

だがこのままだと終わらないので、もう少しペースを早める。四天王の残り3つ、「繧」「繝」「縲」も調べる。

034.JPG
と思ったらなんと、「縺」のすぐ近くに「繧」「繝」「縲」もあった。ラッキー。糸へん四天王はめちゃくちゃ近くに固まっていたのだ!
035.PNG
実は、「縺」「繧」「繝」「縲」はSJISの表でも隣同士に並んでいる。これはSJISの表が漢字辞典と同じルールで配列されている部分があるからだろう。じゃあなぜこれらの漢字が文字化けでよく登場するのかというと、それは先ほど解説した文字化けの仕組みを読んでください。

石川さん「『繧』は単体の意味がないんですね。『繧繝』でしか使わないんですかね」

西村さん「本当ですね。しかも国字と書いてあるので、『繧』は日本でしか使わない漢字のようですね。」

一方、西村さんが字源という少し昔の漢字辞典で調べたところ、「繧」が載っていない。「最近使われるようになったのかもしれませんね」とのこと。

繝(カン、ケン)

  • 錦のあや
  • プリーツのあるスカートのような衣装
  • ひだ模様

繧(ウン)

  • 「繧繝」は、色を淡色から濃色、濃色から淡色へぼかしながら繰り返し塗る彩色法

「繧繝」は糸へん四天王の2つが熟語になっているのでかなり良い。文字化け好きにはたまらない熟語だ。

縲(ルイ)

  • 罪人を縛る縄
  • 牢屋

「繧繝」がおしゃれな彩色法だったのに対し、「縲」は罪人を縛る縄。糸へん四天王のギャップがすごい。

かっこいい形!「鐚」の意味

個人的に最もかっこいいと思っていた漢字が、「鐚」だ。「悪い金」だ。UTF8→EUCの文字化けでよく登場する。どんな意味なんだろう。

西村さん「悪の部分、何画か数えるのきついっすね」

036.JPG
西村さん「こういうのはアプリで画数を調べたほうが早いです」

西村さん、漢字辞典のアプリもたくさん持っていて、普段は紙の辞典を引かないそうだ。(こんなにあるのに!) でも今回は紙の辞典を引く楽しさも味わいたいので、アプリに助けを借りつつ、基本は紙で引く。

037.JPG
アプリ、書いて検索できるのでめちゃくちゃ便利だな。

さて、鐚を大漢和辞典の索引でも調べる。

西村さん「11巻の634。あった、短っ!」

038.JPG
「金質不良のぜに。びたせん。」

別の新しい漢字辞典も見てみる。もともと中国では「しころ(=兜の左右・後方に下げて首筋を覆う部分)」の意味だったようだ。「惡」は「ア」という音を表すだけで、もともと「鐚」に「悪い」という意味はなかった。しかし、日本に入ってきたときに「悪い金」と解釈して「びた銭」の意味が付いたようだ。最近になって、もともとは「しころ」だったことが分かったため、比較的新しい辞典には「しころ」が載っているが、大漢和辞典のような古い辞典には「びた銭」の意味しか載っていない。

039.JPG
西村さん「研究が進むと意味が変わるので、漢字辞典は新しいほうがいいです。」

ええー。そんな。でも、古い漢字辞典があるからこそ差分に気付けるんですね。奥が深い…。

何度も言うが、こうやって漢字をまったりと調べる時間がめちゃくちゃ楽しかった。漢字辞典は知識のかたまり。大昔の人々の言動が漢字になり、それを今、漢字辞典で眺めるという面白さ。私はここに書かれている意味の1パーセントも知らないだろう。知らないことだらけで笑えてくる。一歩進めば新しい発見がある。面白い。

鐚(ア)

  • 金質不良のぜに
  • しころ(兜の左右・後方に下げて首筋を覆う部分)

読めないし書けない、「悤」という字

次は「悤」という漢字を調べる。SJIS→UTF8の文字化けで登場する。「恩」「思」に似ているが、口のなかがごちゃごちゃしててよくわからない。

西村さん「アプリで書いても見つからないな…」

ほり「私が文字化けさせて出た「悤」をメッセンジャーで送るので、コピペして検索してください」

西村さん「来ました。あ~。ありました。分かりました。なるほど…。」

もはや文明の利器をフルに活用してたどり着いた、「悤」。「悤」は「粗忽者(そこつもの)」の「忽」の異体字で、「あわただしい」という意味。ちゃんと調べると「忽」と似た漢字で「怱」という字があって、「悤」は「怱」の親字とも出てくる。

これ、寺尾聰の「聰」の右側だ。調べると、聰は「聡」の旧字である。この文脈では「忩」が「悤」になっている。「悤」がきっかけでいろんな漢字に出会えた。

悤(ソウ)

  • あわてる。いそぐ
  • にわか
  • さとい。かしこい

草止め止め止め。蕋の意味。

「草が止まる止まる止まる」と書いて、「蕋」。UTF8→EUCの文字化けで登場する。調べてみると、雌蕊(おしべ)、雌蕊(めしべ)の「蕊(しべ)」の俗字ということが分かった。

西村さん「北海道に留辺蘂という町があって、それは「蕊」に木が付いたやつですね。」

蕋(ズイ、しべ) 

  • 草木の群がり生えるさま
  • 香草(ハーブ)の名
  • 花の生殖器官

結局2時間半ほど漢字ばかり調べていた。他にも何個か漢字を調べたが、キリがないので省略する。楽しかったなぁ。西村さんと石川さんにはお礼に文字化けキーホルダーの「鐚」と「繧」(暗闇で光るタイプ)をプレゼントした。

いったん広告です

愛すべき悪銭、「鐚」を書道で

さて、西村さんに教えてもらった「鐚」、見た目もかっこいいが、意味もワイルドでかっこいい。もともとは防具で、日本に来た瞬間に悪銭の意味になった。びた一文は漢字で「鐚一文」である。かっこいいので、書道で表すことにした。

040.jpg
中3以来の書道。100均で筆とすずりと墨汁と半紙を買った。書道は440円から始められる。

041.jpg
鐚一文。いい意味ではないので習字教室で書かれることはないだろう。文鎮を買うのを忘れたので文鎮化した昔のiPhoneで代用した。
042.jpg
ど下手だけど楽しかった。「鐚」を愛する気持ちは伝わったと思う。小筆を買い忘れたので名前がない。
043.jpg
文字化け糸へん四天王の2文字が登場する熟語「繧繝」(ウンゲン)も書いた。墨をかなり使った。


貍「蟄励r諢帙☆

西村さんに文字化け漢字の意味を教えてもらったのがめちゃくちゃ楽しかった。最高の時間だった。きっかけは文字化けだったが、結局、漢字というものが面白いのだ。なんだか、文字化けを愛でるというより、漢字そのものを愛でることになってしまったなぁ。

044.jpg
横浜で見かけたビル。壁面が、LINEで絵文字が文字化けした時の「四角に×」のやつに似ている。
▽デイリーポータルZトップへ

デイリーポータルZのTwitterをフォローすると、あなたのタイムラインに「役には立たないけどなんかいい情報」がとどきます!

→→→  ←←←

デイリーポータルZを

 

▲デイリーポータルZトップへ バックナンバーいちらんへ
↓↓↓ここからまたトップページです↓↓↓

 

今日のみどころ