| Author: | Christian Voigtmann |
| Advisor: | Thomas Weise |
| Members of Committee: | Kurt Geihs and Heinrich Werner |
Im Rahmen zweier Projektarbeiten haben zwei Kommilitonen und ich in den Jahren 2007 und 2008 erfolgreich am Data-Mining-Cup1 (DMC) Wettbewerb teilgenommen. Der DMC ist der größte Wettbewerb im Bereich des Data-Minings und wird einmal im Jahr von der Firma Prudsys AG2 und der Technischen Universität Chemnitz veranstaltet. In den letzten beiden Jahren wurden jeweils Aufgaben aus dem Bereich des überwachten Lernens gestellt. Um diese Aufgabenstellung zu lösen, haben wir uns in den beiden Jahren gängiger Klassifikatoren aus demWeka Framework bedient und eigene Klassifikatoren unter Verwendung von evolutionären Algorithmen gezüchtet. Die von uns gezüchteten Ansätze waren in beiden Jahren die Lösungen, die im Vergleich zu allen anderen von uns eingereichten Lösungen die besten Platzierungen erreichten. 2007 erreichten wir Platz 23 von 248 eingereichen Lösungen und 2008 haben wir Platz 93 von 212 eingereichten Lösungen erzielt. Neben der Vorverarbeitung der Daten für deren Verständnis stellte die Erzeugung und Anpassung der evolutionären Ansätze auf die jeweilige zu lösende Aufgabenstellung die zeitaufwendigste Tätigkeit dar. Um nachfolgenden Gruppen, die am DMC teilnehmen möchten bzw. allen anderen Interessierten aus der Data-Mininig-Community, die zeitintensive Adaptierung der evolutionären Ansätze an neue Datensätze zu ersparen, entstand die Idee, die in den Wettbewerben erprobten Ansätze zu verallgemeinern und in das Weka Framework zu integrieren. Die Verallgemeinerung der Ansätze soll gewährleisten, dass möglichst viele unterschiedliche Datensätze aus dem Bereich des überwachten Lernens verarbeitet werden können. Des Weiteren soll durch die Integration der Ansätze in das Weka Framework sichergestellt werden, dass deren Parametrisierung möglichst überschaubar und einfach zu Hand haben ist. Mein persönliches Ziel ist es, die integrierten evolutionären Ansätze bei der nächsten Teilnahme am DMC 2009 zu verwenden und mit ihnen ein möglichst gutes Ergebnis zu erzielen. Das Ziel dieser Arbeit ist es, die zwei im Zuge des Data-Mining-Cups 2007 und 2008 entwickelten evolutionären Ansätze der Allgemeinheit zur Verfügung zu stellen, indem diese in das bekannte Weka Framework integriert werden. Dabei sollen diese beiden Ansätze wie alle standardmäßig in Weka integrierten Klassifikatoren über das Menü für die Klassifikatoren auswählbar und parametrierbar sein.Weiter soll gewährleistet sein, dass beide Ansätze alle gängigen Optionen der Weka Data-Mining Software, wie das Erzeugen und das Laden von Modellen, sowie die Klassifizierung von Holdoutdatens ätzen und die Ausgabe des Klassifizierungsergebnisses innerhalb des Frameworks unterstützen. Einen wichtigen Punkt stellt die Überarbeitung der beiden Ansätze hinsichtlich ihrer Generalität dar, damit möglichst viele unterschiedliche Datensätze verarbeitet werden können. Im zweiten Kapitel wird auf den Begriff des Data-Minings eingegangen und ein Beispieldatensatz aus dem Data-Mining vorgestellt. Außerdem werden evolutionäre Algorithmen allgemein besprochen und es wird auf verwandte Verfahren wie Learning Classifier Systems und Entscheidungsbäume eingegangen. Das dritte Kapitel beschäftigt sich mit den verwendeten Werkzeugen, die für die Bearbeitung der Aufgabenstellung herangezogen wurden. Im darauf folgenden Kapitel werden verwandte Arbeiten vorgestellt. Das fünfte Kapitel stellt die beiden in das Weka Framework zu integrierenden evolutionären Ansätze ausführlich vor, deren Implementierung anschließend in Kapitel sechs besprochen wird. Im Kapitel Experimente werden die integrierten Ansätze auf bekannte Data-Mining Datensätze angewandt und deren Ergebnisse mit etablierten Klassifikatoren verglichen und statistisch ausgewertet. Zum Schluss der Arbeit werden die erzielten Ergebnisse besprochen und es wird ein Ausblick über noch ausstehende Arbeiten gegeben.
Data Mining, Weka, Decision Trees, Rule-based Classification, Genetic Algorithms, GAs, Standard Genetic Programming, SGP, Wine Dataset, Wisconsin Breast Cancer Dataset, Heart Disease Dataset, Iris Dataset, Hepatitis Dataset
@mastersthesis{V2008IEIW,
author = {Christian Voigtmann},
title = {{Integration Evolution{\"{a}}rer Klassifikatoren in Weka}},
school = {{University of Kassel, Fachbereich 16: Elektrotechnik/Informatik, Distributed Systems Group: {Kassel, Hesse, Germany}}},
type = {Bachelor's Thesis},
year = {2008},
month = oct # {~26, },
key = {V2008IEIW},
},| Metadata: | http://www.it-weise.de/documents/metaV2008IEIW.html |