AIによるデータエンリッチメント

この記事は1年以上前に書かれました。
内容が古くなっている可能性がありますのでご注意下さい。


データの利活用において分析や可視化の技術も大切ですが、まずはデータそのものが重要であることは言うまでもありません。そこで注目されているのがデータクレンジングとデータエンリッチメントです。
データクレンジングでは、欠損や重複を修正したり表記の統一や正規化をすることによってデータの品質を向上させます。データエンリッチメントでは、元のデータに情報を付加してより有用なものに拡張します。

今回は、月待塔のデータを集める月待ビンゴプロジェクトの成果である月待塔オープンデータを対象としてデータエンリッチメントを実施します。月待塔オープンデータに画像ファイルそのものは含まれませんが、画像ファイルのURLは含まれています。そこで、URLから画像をダウンロードしてAIにより物体検出した結果を元データに追加し、拡張されたデータを分析することによって得られた知見を紹介します。

車載カメラとAIによる路傍の石造物調査のために開発しているAIは、現在のところ13種類の物体(石造物、刻像、文字)を検出することができます。今回はそのうち

  • 地蔵菩薩の像
  • 如意輪観音の像
  • 「庚申」の文字
  • 「念佛」の文字

の検出結果の情報を元データに付加することにしました。
このとき、「庚申」と「念佛」については、同じ石の矩形内で「夜」の文字も検出していることを条件としています。なぜなら、「二十三夜」などと刻まれる月待塔とは別に庚申塔や念仏供養塔などが存在している可能性もあるからです。
地蔵菩薩と如意輪観音に関しては、もう少し緩い判断基準としましたが、詳細な説明は省きます。
検出結果は、ai_tags列に文字列で格納します。「庚申」や「念佛」と刻まれていることと地蔵菩薩や如意輪観音の像が彫られていることは本来全く違う意味を持ちますが、現時点では単なるAIによるタグ付けの結果として同じ列としました。

2月28日までに収集された3,879件のデータを処理した結果、タグ付けされた件数は以下のようになりました。1件のデータに複数のタグが付けられる場合もあります。

タグ 件数
如意輪観音 1,169
念佛 246
地蔵菩薩 72
庚申 19

「庚申」に着目したのは、このように1つの石で月待塔と庚申塔を兼ねた「併刻塔」を検出するためです。

しかしながら、実際にはこのように紀年銘(この例では「元文五庚申年」)に含まれる干支の「庚申」を検出する例が多くありました。

また、同じ石に「夜」と「庚申」が含まれるという判定も、文字の矩形の中心点による判定ではうまくいかない場合がありました。

「念佛」に関しては興味深い発見が得られました。月待塔の一種である十九夜塔を造立した「十九夜講のほとんどは女人講、念仏講である」(ウィキペディア)と言われています。今回、「念佛」のタグが付けられた十九夜塔は221基ありました。そこで、「念佛」タグが付けられた十九夜塔の数を総数で割った「念佛」率を県別に算出したところ、以下のような結果になりました。

「念佛」あり 総数 「念佛」率
千葉県 102 644 15.8%
栃木県 42 253 16.6%
茨城県 34 164 20.7%
群馬県 25 89 28.1%
埼玉県 15 81 18.5%
福島県 2 136 1.5%
長野県 1 34 2.9%

関東の5県では「念佛」率が高いのですが、福島県と長野県は関東と比べてかなり低い値になっています。これだけのデータで、福島県や長野県では十九夜講が念仏講であることは少ないと結論付けてしまうのは性急であり、石造物だけではなく民俗調査も踏まえて判断しなければなりませんが、これほどの差が見られたことは注目に値します。