ここでは、全アノテーション作業を通じて最も重要な作業といえる「アノテーション仕様の作成」について補足します。
アノテーション仕様は、対象データ、機械学習手法、応用(アプリケーション)により変わるため、万能な方法は弊社でも見つけられていません。
しかしその中でも、特に以下3点に注意して仕様を作成することを推奨しています。
アノテーション仕様の作成は、とても難しい作業です。
事前に仕様をじっくり考えたつもりでも、いざ実際の画像や動画を見てみると、教師をどうつけていいか判断しかねるケースが頻繁に見つかります。
またもう1つ厄介なのは、アノテーションを「完成」できても、できあがったアノテーションをいざ学習させてみると問題が発覚…というケースです。
特に後者の場合、やり直しのコストが非常に高くなります。
そこで、
といった手順で進めることをお勧めします。
教師データが満たすべき大切な性質のひとつとして「ブレがないこと」が挙げられます。
アノテーション仕様があやふやだと、アノテーターによって異なる判断がなされる場合があります。その結果、ブレのある教師データが生成されてしまい、学習時に精度低下を引き起こすおそれがあります。
例えば、車載カメラの画像に対して「車種」という属性をアノテーションする場合を考えます。
の4種を作成したとします。多くのアプリケーションは、これくらいラフな分類で十分でしょう。
ですが、もしもピックアップトラックが現れた場合、これは乗用車とトラックのどちらとすべきでしょうか?
ひょっとすると、
のように、 同種の車に対して別の車種属性がつけられた教師データが作成 されるかもしれません。
このような状況を防ぐため、なるべく複数人でデータを確認し、認識を合わせることをお勧めします。
当たり前ですが、教師データの作成には大変な時間がかかります(特に作業枚数が多い場合には)。
あまりにも細かく・複雑な仕様を作成すると「期限内に全く終わりそうにない!」という事態になってしまいます。
例えば、車載カメラの画像に対して車の位置をマーキングする作業を場合を考えます。
自車に近い3台についてはマーキングを行いましたが、右奥に小さく映っている乗用車については、マーキング対象とするかどうか悩ましいところです。
作業時間が無限にあるならば「可能な限りマーキングする」という対応でもよいですが、現実はそうはいきません。
例えば「○○ピクセルより小さいものはマーキングしない」などとして限度を決めるとよいでしょう。教師データの利用者と話し合い「アプリケーションでどこまで本当に必要なのか?」仕様をすり合わせる必要もあります。
「アノテーション仕様の決め方についてサポートがほしい」
「教師データの作成そのものをお願いしたい」
というご要望がありましたら、 弊社セールスチームまでご連絡 ください。
機械学習の研究者と教師データ作成の専門スタッフからなるチームで、仕様策定相談から教師データの作成まで承ります。