Sigilでダブリンコアにもとづいたメタ情報を入力する(上)

去年の第5回ワークショップ:文字―「現実」から見た改定常用漢字表―電子書籍にまとめるべく、去年の秋から延々と作業を続けてききました。それも最後、ようやく校正が終わり、さあパブリッシュ、と思ったらまだもう一つ壁があった。メタデータの入力。これがこんなに大変だなんて。
この問題、まだよく知られていないようだし、また自分でもうまくできたか自信がない。よって、ここに自分のやったことを簡単にまとめ、講評を乞う次第であります。


ここでの前提は以下の通り。

その上でメタデータとはなにかというと、書名、著者名、発行日などの書誌情報のこと。「データについてのデータ」なので「メタ」がつくわけ。その書かれ方の善し悪し、適不適が内容に関わるわけではない。しかし、だからといってテキトーで良い訳がない。
書誌データは出版者が記述したその本自身についての情報だ。だから第三者がその本についてちょっと深く知りたければ、まず書誌データにあたることになる。それが適切に書かれていなければ、その本を読むべき未来の読者の元に導くことはできない。
電子書籍となればなおさらのことだ。プラットフォームでは、このメタデータを活用して機械可読でソーシャルな仕組みが整備されるはずだ。したがって、このメタデータ次第で、売れたり売れなかったりという結果を招くことになる。

では、Sigilではメタデータをどのように入力するのかというと、メニューでは、tool→Meta Editor...で表示されるパレットで入力することになる(下図)。

で、問題はこの空欄に何を、どのように入力するか。じつは、これについて世に偏在している「SigilによるEPUBの作り方」の解説ページは、あまりにも不親切と言わねばならない。なにせ、ほとんどは「入力する」以上のことを言ってないのだから。これを素直に信じたら「何を入れてもいいや」てなことになってしまうけど、そうは問屋が卸さないのは冒頭述べたとおりであります。

仕方ない、こういう時は規格を参照するに限ります。EPUB2におけるメタデータの記述方法は、Open Packaging Format (OPF) 2.0 v1.0で規定されている。これは英文だけど、ありがたいことにろすさんが和訳を公開してくださっている。

ここに以下のように書かれてある。

2.2: 出版物メタデータ
必須(required)要素である metadata 要素は出版物全体に関する情報を提供するために利用される。 このメタデータダブリンコアの metadata 要素を直接的に、または(現在では廃止予定であるが)下位要素である dc-metadata の中に内包してもよい(may)。
[中略]
必須(required)要素である metadata 要素[略]は、The Dublin Core Metadata Initiative(http://www.dublincore.org/)が定義する、固有の出版物レベルのメタデータを持つ。以下の説明は利便性のために加えてあるが、ダブリンコア独自の定義(http://dublincore.org/documents/2004/12/20/dces/ を参照)の方が優先する。

つまり、簡単に言うとダブリンコア*1という規格があるので、これを参照せよと。では、ダブリンコアとは何か。

乱暴にまとめると、メタデータを記述する語彙として、①15の要素に限定、②要素は入れ替え可能、③同じく繰り返し可能、というごく簡単なルールを定め、これで世界共通でやってみようということ(乱暴すぎるかなあ)。詳細は以下をご参照。

というわけで、このダブリンコアを、そのままSigilに入力してあげさえすればいい(余談ながら、この言及がなされていない時点で、世の中のほとんどすべてのSigil解説ページは、規格から逸脱していることになる)。

ダブリンコアが決める15の要素とは以下の通りだ。凡例は要素名:国会図書館Application Profile (PDF)による要素の使用法の定義:同じく入力レベルの順*2。なお原文では本のことを「当該情報資源」と呼ぶが、下記では一括して「書籍」に置換した。まあ雑誌や冊子、さらには電子データの場合もあるということだろうが、さすがお役所、言葉が堅いね。

  • Title:書籍のタイトルをここに収める。:必須
  • Creator:書籍に著作責任を持つ作成者をここに収める。役割表示(著、編、訳、等)を記録する際は、ここに収める。:あれば必須
  • Subject: 書籍の内容を表す統制語彙、分類記号、フリーキーワードをここに収める。:推奨
  • Description:書籍に関する注記をここに収める。:選択
  • Publisher :出版者・頒布者に関する情報をここに収める。:推奨
  • Contributor:書籍の成立に何らかの寄与、貢献をした実体をここに収める。:選択
  • Date:書籍のライフサイクルにおける何らかの事象の日付をここに収める。適切な下位プロパティがある場合は、そちらに収める。:推奨
  • Type:書籍の内容の性質又はジャンルをここに収める。DCMI Type Vocabulary、NII Typeから統制語を選択する場合に使用する。: 推奨
  • Format: 書籍の物理的形態又はデジタル形態での表現形式をここに収める。Internet Media Types(MIME)の統制語から選択し、ここに収めるのが望ましい。:選択
  • Identifier: 各種識別子をここに収める。あれば必須
  • Source:書籍が作成される源となった情報資源への参照を行う。:推奨
  • Language: 書籍の記述言語をここに収める。:推奨
  • Relation:関連する情報資源のURIや識別子をここに収める。参照先の情報資源がURIを持つ場合には、リソースのURI参照を行うことが望ましい。:選択
  • Coverage:書籍の内容に関わる地名や座標といった地理情報、及び時代や日付といった時間情報をここに収める。:選択
  • Rights:著作権者以外の権利管理に関する情報をここに収める。:選択

ここまでは規格の話だ。では、Sigilではどのように実装されているのか。どうも、ちょっとクセのある解釈がされている様子だが、それは最後にまとめて考察しよう。ひとまず入力に話を限るとして、上記のルールをどのようにSigilに入れていくのかを考えよう。
まず基本方針として、ダブリンコアの15の要素をSigilのメニューから選択、入力することにする。具体的に入力する内容について、迷った場合は我々にとって最も身近で最も公的な存在である国会図書館の、ダブリンコアメタデータ記述(DC-NDL)に準拠することにする。
なお、DC-NDLを使う理由は上に述べただけではない。ダブリンコアを読めば分かるとおり、そこではなるべく統制された語彙を使うことが求められている。たとえばキーワード(subject)は、自分で考えた勝手なものを入れるのでなく、公的な機関が定めた語彙の中から選ぶことが求められている。こうしたルールは国会図書館だけが定めているのではないが、アクセスのしやすさで一日の長があり、今回はこれを選ぶことにした。
このような方針が決まれば、あとは比較的簡単。「Title」に書名を、「Author」に著者名(ダブリンコアの“creator”に該当。後述)を、「Language」は使用言語をパレットから選択すればよい。その上で、のこりの12要素は「Add Basic」か「Add Adv.」のいずれかのリストから見つけ選択する(ほとんどは前者の中にある)。ただし多少のずれもあるので、以下では入力に困った要素だけに絞って解説する。なお、ここで入力する言語は「使用言語」になるので、無理して英語で書かずとも日本語でよい。

Subject

キーワードを国会図書館国立国会図書館件名標目表のページで検索。そのurlを入力した。

Date

Sigilでは「Date of Creation」と「Date of Modification」および「Date of Publication」の3つに細分化されている。ここでは「Creation」(データの制作終了日)と、「Publication」(販売開始日)と解釈し入力。

Type

The KANZAKI Web、タイプ要素を参照。ここでは「Text」。

Identifier

Sigilでは、われわれはISSNを取得していたので、「Add Basic」から「ISSN」を選択、取得ずみの番号を入力した。

Format

EPUBMIMEタイプは「application/epub+zip」

Source

第5回ワークショップ:文字のページに掲出してある配布資料のurlを入力。

Coverage

我々の企画では、いれるべき情報がよく分からなかったので今回は入力しないことにした。まあ、一番下の「選択」だし。

ちょっと長くなったので、ここでいったん公開しましょうかね。それにしてもSigilェ……。

(明日につづく)

*1:ウィキペディアで知ったのだけど、てっきり「ダブリン市民」と同じアイルランドのダブリンかと思っていたら、アメリオハイオ州にあるダブリンで決まったからなんですね。

*2:国会図書館DC-NDLにおける記述の入力レベルの目安であり、必須>あれば必須>推奨>選択の4段階。