ウィキデータの調査

この記事は1年以上前に書かれました。
内容が古くなっている可能性がありますのでご注意下さい。


ウィキデータは、ウィキメディア財団が運営する構造化データのデータベースです。ウィキペディアと同様に誰でも編集することができます。ウィキデータのデータはCC0ライセンスで提供されており、誰でも自由に利用することができます。

ウィキペディア街道プロジェクト
今回の調査の目的は、ウィキペディア街道プロジェクトの成果をウィキデータに入力することです。ウィキペディア街道プロジェクトは、大山道沿いの名所旧跡などの歴史・文化情報をウィキペディアに掲載して発信する活動をしており、これまでに35本の記事を新規作成しました。

その内訳は、寺院13、神社10、宿場8、資料館2、城趾1、その他1です。

ウィキデータへの入口
第1回ウィキペディア街道「大山道」で作成した記事・大山街道ふるさと館を開くと、左側のメニューに「ウィキデータ項目」というリンクがあります。

このリンクをクリックすると、大山街道ふるさと館のウィキデータ項目を参照することができます。
ウィキデータでは、ログインしていないと英語で表示されます。言語設定を変更するには、アカウントを作成してログインする必要があります。

大山街道ふるさと館は、ウィキデータにおいて「Q20043481」という一意な識別子を持っていることがわかります。
この時点では、日本語のラベルは入っていますが「説明はありません」と表示されているので、項目についての説明の追加が必要です。日本語以外のラベルと説明もあった方が良いでしょう。
「文」には、画像と位置座標のデータが入っています。「文」の追加が主な作業となります。

ウィキデータの文
ウィキデータでは、項目についてのデータを「文」という形式で入力します。文は「プロパティ」と「値」のペアで表現します。
大山街道ふるさと館のウィキデータ項目では、「画像」というプロパティに対して「川崎市大山街道ふるさと館.JPG」という値が入っています。文には、そのデータについての情報源も入力します。この例ではウィキペディア日本語版からの移入になっていますが、通常は書籍等になります。詳しくはHelp:情報源を参照して下さい。

ウィキデータ・クエリ
ウィキデータ・クエリを使用すると、RDF(Resource Description Framework)形式で格納されたデータのためのクエリ言語・SPARQL(スパークル)を用いて検索をすることができます。RDFでは、データを主語(subject)と目的語(object)を述語(predicate)でリンクしたトリプル(triple)で表現します。大山街道ふるさと館(Q20043481)を主語とするすべての目的語と述語のペアは、以下のSPARQLクエリで取得することができます。

SELECT ?p ?o WHERE {
  wd:Q20043481 ?p ?o.
}

エンティティには、プレフィクス wd: を付けます。
実際にウィキデータ・クエリを用いて実行すると、以下の結果が得られました。

プロパティ
文を追加するには、使用できるプロパティを知っていなければなりません。
ウィキデータのサイトにはプロパティの一覧というページがありますが、ここから探し出すより、既に多くの文が入力されているデータ項目を参考にするのが手っ取り早いかもしれません。

まず必要なのは、その項目が何なのかを表すプロパティと値です。ウィキペディア街道の成果物では以下のプロパティと値が使えそうです。

プロパティ
名称 識別子 名称 識別子
分類 P31 仏教寺院 Q5393308
神社 Q845945
宿場 Q1209783
博物館 Q33506
Q23413

また、以下のプロパティと値のペアも必要そうです。

プロパティ
名称 識別子 名称 識別子
P17 日本 Q17

これらのプロパティが使用されている項目の一覧は、SPARQLクエリを実行して取得することができます。仏教寺院の場合は以下のようになります。

SELECT DISTINCT ?sLabel WHERE {
  ?s wdt:P31 wd:Q5393308.
  ?s wdt:P17 wd:Q17.
  SERVICE wikibase:label { 
    bd:serviceParam wikibase:language "ja".
  }
}

プロパティにはプレファクス wdt: を、エンティティにはプレフィクス wd: を付けます。
ウィキデータ・クエリでの実行結果は以下のようになりました。

クエリの中で、

SERVICE wikibase:label { 
  bd:serviceParam wikibase:language "ja".
}

というのは、あまり見慣れないと思います。これは、ウィキデータ・クエリの拡張機能を利用して項目の(日本語の)ラベルを取得するためのものです。

他にも、寺院なら宗派や本尊、神社なら祭神など、項目の分類毎に必要となるプロパティもありますので、それらについても調査し、使用方法を明らかにする必要があります。

ウィキデータ入門 12345