Zipfの法則と表外漢字字体表


5月3日の日記が、思いの外読んでいただいた方が多いようで、うれしいかぎりです。それはともかくとして、この時の文章中、以下の部分、

“誰もが満足する図書館を作るには、何冊蔵書すればいいか” という問題をご存知ですか? 具体的な数字は忘れちゃったんですけど、千冊かそこらあれば、9割以上の人は満足させられるんですよ。でも、あとの1割以下に満足してもらうには、じつに何十万冊も必要になるんです。漢字もこれと同じなんですよね(英単語などもそうですけど)。

これって、本当に実在するのか、ひょっとしておれはデタラメ言ってなかったかと気になって調べてみました。


メールを掘ってみたところ、4年ほど前にあるエンジニアの方からお教えいただことが分かりました(木田さんに感謝!)。その名を「Zipf(ジップ)の法則」と言い、数学や統計学、そして図書館学ではごく知られたもののようです。一番分かりやすいのは、以下のページでしょうか。

上記のページで触れられているように、近年ではウェブでのアクセス解析に利用されることが多いようです。つまり「ごく一握りのサイトが、圧倒的多数のアクセス数を得る」というわけ。この法則について、以下のページはさらに思索を深めています。

つまり、この世の中はごく一部の人間の意志決定により動かされていると。なるほどねえ。この他にもいろいろ応用が利きそうです。ともあれこの法則が、自然界のそこここに偏在する、ある振る舞いを言い当てようとしたものであることは確かです。

さて、寝ても覚めても文字のことしか考えてないぼくが、このZipfの法則で思い浮かべたのは「表外漢字字体表」の以下の部分でした。

凸版印刷による2回の調査資料では,常用漢字の1945字だけで,延べ漢字数のおよそ96%を占めるという結果が出ている。さらに,人名用漢字を加えると97%強になる。表外漢字については,人名用漢字を除けば,3%弱にすぎない。ただし,字種(異なり文字数)では5000字近くある。

表外漢字字体表が2度にわたる頻度調査にもとづき作成されたものであることは確かだとしても、このZipfの法則からも分かるように、もともと表外漢字とは全体からすればごくごく低い頻度の中の、まあ喩えは悪いですが目くそ鼻くその話に過ぎません。ここでは印刷標準字体を1,022字さだめていますが、それが充分な根拠のあるものなのか、不断の問いかけが必要であるように思います。ぼく自身は、この調査が書籍や雑誌の比重が大きく、新聞にあまり重きを置いていないことが気になっています。

  • 比留間直和/松居秀記/小林肇「新聞の使用字体に三類型」(『新聞研究』1999年8月号 pp.51-56)

これは日本新聞協会が「表外漢字字体表試案」の987字種を対象に字体調査をおこない、加盟72社から得た回答をまとめた報告です。地方紙も含めた新聞全体の字体調査はこれが初めてだそうで、それゆえに貴重なものです。この論文にある表「3部首以外の部分字形を持つ文字の例」(p.55)*1をみると、書籍類とは逆に新聞各紙では圧倒的に略字体が多いことが見てとれます。筆者は、表外漢字字体表のデザイン差には「ハ・ソ」の違いを加えて然るべきとまで言っています。調査を終えた素直な実感でありましょう。これが通れば「溢」「酋」「楢」「屑」など多くの略字体が印刷標準字体になったはずですが、残念ながら結果はご承知の通り。

常用漢字表について、文字を増やすことを視野に入れた見直しが進んでいるようですが、これにあたっては表外漢字字体表の際の調査を流用するのではなく、規模を広げた再調査が必要であるように思います。

*1:これが「3部首以外」というところに注意。食偏、一点しんにょう、ネ偏の3つの部首に限っては略字体を許す「三部首許容」は、日本新聞協会への懐柔策として導入されたのだが、じつはこれによってもバランスは偏ったままであることになる。