データの利活用において分析や可視化の技術も大切ですが、まずはデータそのものが重要であることは言うまでもありません。そこで注目されているのがデータクレンジングとデータエンリッチメントです。
データクレンジングでは、欠損や重複を修正したり表記の統一や正規化をすることによってデータの品質を向上させます。データエンリッチメントでは、元のデータに情報を付加してより有用なものに拡張します。
今回は、月待塔のデータを集める月待ビンゴプロジェクトの成果である月待塔オープンデータを対象としてデータエンリッチメントを実施します。月待塔オープンデータに画像ファイルそのものは含まれませんが、画像ファイルのURLは含まれています。そこで、URLから画像をダウンロードしてAIにより物体検出した結果を元データに追加し、拡張されたデータを分析することによって得られた知見を紹介します。
続きを読む