データサイエンス」カテゴリーアーカイブ

AIによるデータエンリッチメント

データの利活用において分析や可視化の技術も大切ですが、まずはデータそのものが重要であることは言うまでもありません。そこで注目されているのがデータクレンジングとデータエンリッチメントです。
データクレンジングでは、欠損や重複を修正したり表記の統一や正規化をすることによってデータの品質を向上させます。データエンリッチメントでは、元のデータに情報を付加してより有用なものに拡張します。

今回は、月待塔のデータを集める月待ビンゴプロジェクトの成果である月待塔オープンデータを対象としてデータエンリッチメントを実施します。月待塔オープンデータに画像ファイルそのものは含まれませんが、画像ファイルのURLは含まれています。そこで、URLから画像をダウンロードしてAIにより物体検出した結果を元データに追加し、拡張されたデータを分析することによって得られた知見を紹介します。
続きを読む

YOLOv5への移行


Darknet YOLOv4を使って機械学習を始め、「深層学習による石造物の分類」以来、いくつかのブログ記事を書いてきました。1ヶ月ほど前にYOLOv5に移行したところ、予想を遥かに上回る良好な結果を得ることができましたので、簡単にYOLOv5を紹介します。
特筆すべき点は、

  • インストールが簡単(Pythonの環境があれば動作し、Visual Studioのような開発環境は不要)
  • 検出処理が高速で精度も高い

です。また、YOLOv5はGPU(CUDA)なしで動作させることも可能です。

続きを読む

WebクローラーでAIの学習データ収集


車載カメラによる動画からYOLOで石造物検出をするようになると、検出対象の石造物の種類を増やしたくなり、より多くの学習データが必要になりました。そこで、もともとは月待塔というマイナーな石造物の情報収集用に作ったScrapyとYOLOによるWebクローリングと物体検出の仕組みを利用して、AIの学習用データを収集することにしました。
続きを読む

ScrapyとYOLOによるWebクローリングと物体検出


ScrapyによるWebクローラーの開発」で作成したクローラーと、「Darknet YOLOをPythonで使う」で作成したディープラーニングによる月待塔の検出(実際には、「夜」と刻まれた石造物の検出)を組み合わせて、クローリングで得られた画像から月待塔を検出します。
続きを読む