RODSL - Lernen von robuster Objekterkennung mit Soft-Labels von mehreren Annotatoren (WiSe 2022/23)
Wenn man sich auf die Vorhersagen datengesteuerter Modelle verlässt, muss man sich auf die "Ground Truth"-Daten verlassen - denn Modelle können nur vorhersagen, was sie gelernt haben. Was aber, wenn die Trainingsdaten sehr schwierig zu annotieren sind, da sie Expertenwissen erfordern und der Annotator falsch liegen könnte?
Eine Möglichkeit, diese Probleme zu lösen, besteht darin, die Daten mehrfach zu annotieren und die mutmaßliche Grundwahrheit durch Mehrheitsentscheidungen zu extrahieren. Es gibt jedoch auch andere Methoden, die diese Daten effektiver nutzen.
In diesem Projekt werden bestehende Methoden zur Zusammenführung, Abstimmung oder anderweitigen Extraktion der Grundwahrheit aus mehrfach annotierten Bildern untersucht. Zu diesem Zweck werden der VinDr-XCR- und der TexBiG-Datensatz verwendet, da beide mehrfach annotierte Daten zur Objekterkennung liefern. Darüber hinaus werden tiefe neuronale Netzwerkarchitekturen modifiziert und angepasst, um solche Daten während des Trainings besser nutzen zu können.