[参考] アノテーション仕様作成におけるポイント

ここでは、全アノテーション作業を通じて最も重要な作業といえる「アノテーション仕様の作成」について補足します。

アノテーション仕様は、対象データ、機械学習手法、応用(アプリケーション)により変わるため、万能な方法は弊社でも見つけられていません。

しかしその中でも、特に以下3点に注意して仕様を作成することを推奨しています。

1.トライアルの実施

アノテーション仕様の作成は、とても難しい作業です。

事前に仕様をじっくり考えたつもりでも、いざ実際の画像や動画を見てみると、教師をどうつけていいか判断しかねるケースが頻繁に見つかります。

またもう1つ厄介なのは、アノテーションを「完成」できても、できあがったアノテーションをいざ学習させてみると問題が発覚…というケースです。

特に後者の場合、やり直しのコストが非常に高くなります。

そこで、

  1. タスク数個~数十個のテストプロジェクトを作成する
  2. テストプロジェクトを完成させる
  3. テストプロジェクトの教師データで学習を行ってみる
  4. 問題の洗い出し、仕様の修正
  5. 本番プロジェクトの作成

といった手順で進めることをお勧めします。

Annofabで実行するには

プロジェクトをいくつでも自由に作成、削除できます。このため、テストプロジェクトをいくつでも作り、いらなくなったら削除しましょう。

またテストプロジェクトのアノテーション仕様をコピーし、本番プロジェクトを作成できるので、仕様を何度も入力する手間はありません。

2.複数人での実施

教師データが満たすべき大切な性質のひとつとして「ブレがないこと」が挙げられます。

アノテーション仕様があやふやだと、アノテーターによって異なる判断がなされる場合があります。その結果、ブレのある教師データが生成されてしまい、学習時に精度低下を引き起こすおそれがあります。

例えば、車載カメラの画像に対して「車種」という属性をアノテーションする場合を考えます。

  1. 乗用車
  2. トラック
  3. バス
  4. その他(消防車、コンクリートミキサー車)

の4種を作成したとします。多くのアプリケーションは、これくらいラフな分類で十分でしょう。

ですが、もしもピックアップトラックが現れた場合、これは乗用車とトラックのどちらとすべきでしょうか?

ひょっとすると、

  • Aさん「乗用車」
  • Bさん「トラック」

のように、 同種の車に対して別の車種属性がつけられた教師データが作成 されるかもしれません。

このような状況を防ぐため、なるべく複数人でデータを確認し、認識を合わせることをお勧めします。

Annofabで実行するには

検査/受入のワークフローを活用します

  • Task0: Aさんが教師付け、Bさんが受入
  • Task1: Cさんが教師付け、Aさんが受入

というように、複数人によるチェックがなされます。食い違いが発見された場合には、「ピックアップトラックは乗用車」と決めるなどして、ブレを防止しましょう。

3.現実的な範囲での仕様作成

当たり前ですが、教師データの作成には大変な時間がかかります(特に作業枚数が多い場合には)。

あまりにも細かく・複雑な仕様を作成すると「期限内に全く終わりそうにない!」という事態になってしまいます。

例えば、車載カメラの画像に対して車の位置をマーキングする作業を場合を考えます。

自車に近い3台についてはマーキングを行いましたが、右奥に小さく映っている乗用車については、マーキング対象とするかどうか悩ましいところです。

作業時間が無限にあるならば「可能な限りマーキングする」という対応でもよいですが、現実はそうはいきません。

例えば「○○ピクセルより小さいものはマーキングしない」などとして限度を決めるとよいでしょう。教師データの利用者と話し合い「アプリケーションでどこまで本当に必要なのか?」仕様をすり合わせる必要もあります。

Annofabで実行するには

現実的な範囲での教師作成を補助する仕組みのひとつとして「最小サイズの指定」ができます。これを指定することで、過度に小さな対象物までマーキングしてしまう状況を防止できます。

また、作業時間の集計を見ることで「以前の作業ルールと比べてあまりにも時間がかかっているので、仕様をみなおす」といった対応をとることができます。

教師データ作成のサポートいたします(有償)

「アノテーション仕様の決め方についてサポートがほしい」
「教師データの作成そのものをお願いしたい」

というご要望がありましたら、 弊社セールスチームまでご連絡 ください。

機械学習の研究者と教師データ作成の専門スタッフからなるチームで、仕様策定相談から教師データの作成まで承ります。