Lehrveranstaltungen im aktuellen Semester

  • Einführung in die Informatik (für Studenten der Studiengänge WiWi und Wi-Päd.)
    • Vorlesung: Donnerstag 9.00 -11.00 Uhr, Audimax
    • Übung: Dienstag 17.00-19.00 Uhr, Audimax

Zu vergebene Abschlussarbeiten (Bachelorarbeiten, Masterarbeiten)

Im Themenbereich NoSQL-Daten, Schema-Management, Schema-Evolution sind jederzeit Abschlussarbeiten zu vergeben. Bitte vereinbaren Sie einen Termin (meike.klettkeuni-rostockde).

NoSQL-Benchmark für die Performancebewertung von Integritätsbedingungsableitung

Im Mittelpunkt dieser Abschlussarbeit steht die Entwicklung eines Benchmarks, der Verfahren zur Ableitung von Integritätsbedingungen (Schlüssel, funktionale Abhängigkeiten, Inklusionsabhängigkeiten, Fremdschlüssel) bezüglich ihrer Laufzeit bewerten kann.

Dieser Benchmark soll anhand der vorhandenen Implementierungen getestet werden.

Motivation des Themas:
Die Verfahren zur Ableitung der Integritätsbedingungen sind Reverse-Engineering Verfahren. In NoSQL-Datenbanken werden diese im Gegensatz zu relationalen Datenbanken nicht während des Entwurfsprozesses definiert und beim Einfügen und Verändern und Löschen von Datensätzen kontrolliert. Dennoch gelten solche Integritätsbedingungen häufig in den Daten, da viele NoSQL-Daten aus anderen Anwendungen heraus generiert werden und dabei bestimmten Mustern folgen. Das Ableiten von Integritätsbedingungen aus bereits vorhandenen NoSQL-Datenbanken kann durch Reverse-Engineering-Ansätze erfolgen. Hierfür liegen bereits Java-Implementierungen vor, die auch schon durch erste Beispiele getestet sind. Eine wichtige Frage ist die Effizienz dieser Verfahren, da sie auf großen Datenbeständen skalierbar ausgeführt werden sollen. Dafür soll ein Benchmark entwickelt werden, der geeignet ist, die Ableitung von Integritätsbedingungen aus NoSQL-Datenbanken zu testen und deren Performance zu bewerten.

Aufgabe:

Im Rahmen dieser Bachelorarbeit soll dafür folgende Aufgabe gelöst werden. 

  1. Einarbeitung in das Thema Anforderungen an Benchmarks und Testumgebungen
  2. Analyse von Benchmarks verwandter Gebiete (Benchmarks für relationale Datenbanken und NoSQL-Datenbank Benchmark für )
  3. Definition der Anforderungen an den Benchmark
  4. Erstellung des Benchmarks und Generierung von Beispieldaten
  5. Test des Benchmarks mit den vorhandenen Varianten der Java-Implementierungen

Literatur:

  • Professionalle Performance-tests
  • Benchmarks (rel)
  • YCSB-Benchmark

Projekt:

Die Bachelorarbeit ordnet sich in die Arbeiten zum DFG-Projekt Darwin ein, in dem das Thema „Schema-Management für NoSQL-Datenbanken“ im Mittelpunkt steht. Die Forschungsarbeiten werden zusammen mit der Hochschule Darmstadt und der OTH Regensburg durchgeführt.

Visualisierung von Schema-Versionen, NoSQL-Daten und Schema-Evolutionsoperationen

Visualisierung von Schema-Versionen, NoSQL-Daten und Schema-Evolutionsoperationen

Motivation des Themas:

Die schemalose Speicherung in NoSQL-Datenbanken bewirkt, dass in diesen häufig heterogene Datensätze gespeichert sind. Bei jeder Art der Verwendung oder Auswertung dieser Daten ist der erste Schritt „Understanding of the NoSQL Data“. Für diesen Schritt soll eine Visualisierung konzipiert und entwickelt werden. Bereits vorhanden sind Programme, die zu einer gegebenen NoSQL-Datenbank die Schemaversionen über die Zeit ableiten, diese stehen als JSON Schema bereit. Weiterhin sind bereits die Evolutions-operationen vorhanden, die die Änderungen von einer Version zu der Nachfolgerversion beschreiben. Diese Evolutionssprache enthält die Operationen add, delete, rename, copy und move. In einigen Fällen werden aus den Daten mehrere Varianten der Evolutionsoperationen abgeleitet, hier wird eine Benutzerentscheidung benötigt, welche ausgewählt werden soll. Visualisiert werden sollen die JSON-Schemata als relativ kompakte Graphen sowie die Evolutionsoperationen zwischen diesen. Optional können dazu ebenfalls beschriebene Merkmale zu den NoSQL-Daten und Beispiele aus diesen Daten dargestellt werden. Durch geeignete Techniken soll eine interaktive Exploration ermöglicht werden.

Aufgabe:

Im Rahmen dieser Bachelorarbeit soll dafür folgende Aufgabe gelöst werden.

  1. Einarbeitung in NoSQL (JSON) und JSON-Schema
  2. Literaturüberblick zur Visualisierung zeitveränderlicher Graphen
  3. Erstellung eines Anforderungskataloges für die interaktive Visualisierung
  4. Auswahl eines Visualisierungsverfahrens und prototypische Umsetzung
  5. Abfassung der schriftlichen Arbeit und Präsentation der Ergebnisse

Umsetzung:

  • Mongodb
  • Java oder JavaScript

Betreuer:

  • PD Dr.-Ing. habil. Christian Tominski
  • PD Dr.-Ing. habil. Meike Klettke

    Literatur:

    • JSON Schema, json-schema.org
    • Meike Klettke, Uta Störl, Stefanie Scherzinger: Schema Extraction and Structural Outlier Detection for NoSQL Data Stores. BTW 2015
    • Meike Klettke, Stefanie Scherzinger, Uta Störl: Datenbanken ohne Schema? - Herausforderungen und Lösungs-Strategien in der agilen Anwendungsentwicklung mit schema-flexiblen NoSQL-Datenbanksystemen. Datenbank-Spektrum 14(2): 119-129
    • Aigner et al.: Visualization of Time-Oriented Data, Springer, 2011
    • Tominski et al.: CGV – An Interactive Graph Visualization System, Computers & Graphics 33(6), 2009
    • Hadlak et al.: A Survey of Multi-faceted Graph Visualization, EuroVis State-of-the-art-report, 2015

    Die Arbeit ordnet sich in die Arbeiten zu „Schema-Management für NoSQL-Datenbanken“ ein, die seit 2013 zusammen mit der Hochschule Darmstadt und der OTH Regensburg durchgeführt werden.

    Erweiterung einer NoSQL-Evolutionssprache

    Erweiterung einer NoSQL-Evolutionssprache

    Hintergrund

    Im thematischen Rahmen des DFG-Projektes „NoSQL-Schemaevolution und skalierbare Big Data Datenmigration“ wird eine Bachelorarbeit angeboten. Im DFG-Projekt wird ein Prototyp „Darwin“ implementiert, der die Schemaevolution und Datenmigration von NoSQL-Datenbanken automatisiert. Weitere Aspekte in dem Projekt sind die Schema-Extraktion für NoSQL Datenbanken.

    Aufgabenstellung

    Der Softwareprototyp „Darwin“ stellt unter anderem Features zur Schemaevolution von NoSQL-Datenbanken durch fünf Operationen (add, rename, delete, move, copy) bereit. Dabei können auf einer NoSQL-Datenbank bei allen Dokumenten einer Collection Properties hinzugefügt, umbenannt oder entfernt werden oder Properties zwischen Collections anhand einer Matching-Bedingung  verschoben oder kopiert werden.

    Die Evolutionssprache soll um die zwei zusätzliche Operationen „split“ und „merge“ erweitert werden, die die Properties einer Collection in zwei Collections aufteilt („split“) bzw. zwei Collections mit einer disjunkten Menge von Properties zu einer Collection zusammenfasst („merge“). Die Lösung zur Problematik soll konzeptionell entwickelt, die Semantik der Operation definiert und in Darwin implementiert werden. Ergebnisse sind zu dokumentieren.

    Wird diese Thematik als Bachelorarbeit bearbeitet, soll zusätzlich untersucht werden, wie split und merge sich bei einer nicht-disjunkten Teilmenge an Properties auswirkt. Dieser Umstand hat zur Folge, dass durch eine merge-Operation Properties verschiedener Collections mit dem identischen Namen zu einem Property zusammengefasst werden müssen. Insbesondere für die merge-Operation sind Konfliktlösungsstrategien notwendig, die ebenfalls untersucht, konzeptioniert und prototypisch implementiert werden sollen.

    Benötigte Kompetenzen

    • Solide Kenntnisse in Java und NoSQL (insbesondere MongoDB)
    • Kenntnisse in ANTLR v4 zur Erweiterung der Eingabesprache
    • Grundlegende Kenntnisse in UML für die technische Dokumentation
    • Grundlegende Kenntnisse im Java-Framework Spring und Maven

    Rahmenbedingungen

    • Als Softwareprojekt (6 CP)
    • Als Bachelorarbeit (CP nach Studiengang) mit erweiterter Themenstellung

    Einstiegsliteratur

    • Meike Klettke, Hannes Awolin, Uta Störl, Daniel Müller, Stefanie Scherzinger: Uncovering the Evolution History of Data Lakes, 6th Scalable Cloud Data Management Workshop (SCDM) @ IEEE Big Data Conference, Boston, USA, December 2017
    • Uta Störl, Daniel Müller, Meike Klettke, Stefanie Scherzinger: Enabling Efficient Agile Software Development of NoSQL-backed Applications, BTW Demo 2017
    • Mark Lukas Möller, Meike Klettke, Uta Störl: Formal Semantics of NoSQL Evolution Operations for Different Data Heterogeneity Classes, Technical Report, 2018.

    Kontakt

    Mark Lukas Möller/Meike Klettke
    Institut für Informatik, Zi. 240/241
    E-Mail: mark.moeller2uni-rostockde bzw. meike.klettkeuni-rostockde

    Abgeschlossene Bachelor-, Master und Diplomarbeiten

    2018

    • Felix Beuster: Schema Extraction and NoSQL Data Profiling, Masterarbeit 2018
    • Paul Wegener: Effizientes Reverse Engineering von Keys und Quasi-Keys aus komplexen, heterogenen und verrauschten NoSQL-Daten, Masterarbeit, 2018

    2017

    • Felix Wächter: Konzeption eines Polystores für relationale Datenbanken, Graphdatenbanken und NoSQL-Datenbanken und Definition beschreibender Metadaten, noch laufend
    • Hannes Awolin: Verfahren zur Ermittlung von Integritätsbedingungen in NoSQL-Datenbanken, Masterarbeit
    • Sarath Reddy Ravula: Cost metrics for NoSQL datastores, Master thesis
    • Claudia Hamann: Big Data Technologies - Tasks, Challenges, and Economic Evaluation

    2016

    • Tjark Krause: Datenmigration in Data-Warehouses - Konzeption und Entwicklung eines Prozesses zur Transformation von Star- bzw. Snowflake-Schemen zu Data Vault, Bachelorarbeit
    • Felix Beuster: Data-Integration Pipeline für die Transformation von NoSQL-Daten (JSON) in relationale Datenbanken, Bachelorarbeit, elektronische Fassung
    • Robert Schiller: Varianten zur Speicherung multidimensionaler Daten - qualitative und quantitative Bewertung von Star- und Snowflakeschema, Data Vault und Column Stores, Masterarbeit
    • Jacob Langner: Entwicklung und Evaluierung verschiedener Verfahren zur inkrementellen Schema-Extraktion für NoSQL Daten, Masterarbeit, elektronische Fassung
    • Paul Wegener: Auswahl und Evaluierung von adaptiven Data Mining Verfahren zur Bewertung von Kundendaten, Bachelorarbeit
    • Eike Wilke: Entwicklung von Metriken zur Bewertung von NoSQL-Anwendungen, Bachelorarbeit

    2015

    • Stefan Voshage: Evaluation von Technologien der Informationsextraktion für die Informationsbeschaffung am Beispiel des Pflegemarktes. Bachelorarbeit

    2014

    • Marcel Apfelt: Entwicklung einer Schema-Evolutionskomponente für eine NoSQL-Datenbank. Masterarbeit, elektronische Fassung
    • Norman Soetbeer: Konzeption und Implementierung einer Sichtenverwaltung für NoSQL-Datenbanken. Diplomarbeit
    • Chris Kaping: Management von Typhierarchien in der XML-Schemaevolution, Masterarbeit, elektronische Fassung
    • Suren Gjulbekjan: Conception for optimized storage and removal of enterprise information, Masterarbeit

    2013

    • Mats Möller: Entwicklung eines Verfahrens zur Integration von Forschungs- und Entwicklungsdaten für das Unternehmen Beiersdorf, Masterarbeit
    • Jan Deffke: Entwicklung eines Matching- und Mappingverfahrens zur Verbesserung der XML-Schemaevolution, Masterarbeit
    • Daniel Merkel: Modellierung und Implementation eines gekapselten Zugriffes auf mehrdimensionale Datacubes, Bachelorarbeit
    • Chris Kaping, Transformation von Modellierungsstilen in XML-Schemata, Bachelorarbeit
    • Marcel Apfelt: Recommendertechniken für den Entwurf von XML-Schemata, Bachelorarbeit
    • Hannes Grunert: Integration von Integritätsbedingungen bei der XML-Schemaevolution, Masterarbeit, elektronische Fassung

    2012

    • Jan Deffke: XML-Schema Evolution in der Praxis, Bachelorarbeit
    • Josephine Freymann: Vergleich unterschiedlicher Data-Warehouse-Realisierungen bei dem mittelständischen Unternehmen Lufthansa Technik Logistik Service GmbH, Diplomarbeit

    2011

    • Raik Wehser: Datenintegration von relationalen Datenbanken und XML-Dokumenten am Beispiel eines konkreten PEP-/PDM-Systems und des System-Templates von AUTOSAR, Diplomarbeit
    • Iman Kamenhkhosh: Comparison, Test and Evaluation of Recommendation Techniques for web-Based Applications, Master Thesis
    • Hannes Grunert: XML-Schema Evolution: Kategorisierung und Bewertung, Bachelor Thesis
    • Josephine Freymann: Vergleichende Betrachtung der ETL-Systeme Talend und IBM DataStage für den Einsatz bei der Lufthansa Technik Logistik GmbH, Studienarbeit
    • Frank Gutknecht: Marketing 2.0: Identifizierung von Superspreadern in Online-Business-Netzwerken, Bachelorarbeit

    2010

    • Robert Hälke, Versionierungskonzepte und -techniken für Biochemische Simulationsmodelle, Diplomarbeit
    • Marco Diederich, Entwicklung und Implementierung eines Data-Mining basierten Verfahrens für den Datenbankentwurf, Diplomarbeit

    2009

    • Marcel Buchhardt: Vergleich von vollständigen Splits und lokalen Splits, Diplomarbeit
    • Maik Heyden: Modellierung, Speicherung und Retrieval von historischen Institutsentwicklungen unter Verwendung von Graphen, Diplomarbeit
    • Ronny Wernicke: Dynamik in Gridfiles, Diplomarbeit
    • Sebastian März: Ableitung von Assoziationsregeln aus XML-Dokumenten, Studienarbeit, 2009 Marco Diederich: Datenbankentwurfstool auf der Basis vorhandener Entwürfe, Studienarbeit
    • Tony Möller: Komponentenbasierter Entwurf von XML-Schemata, Studienarbeit
    • Thomas Nösinger: Anfrageoptimierung in Data Warehouses durch Verwendung voraggregierter Views, Diplomarbeit
    • Marcel Buchhardt: Benutzerinterface zur XQuery-Formulierung, Studienarbeit

    2008

    • Sebastian Schulz: Einsatz von Replikationsverfahren für die Softwareevolution. Diplomarbeit
    • Christian Schubert: Model Driven Engineering für XML-Anwendungen. Diplomarbeit
    • Alexander Stuhr: Informationssystem für die Erschließung der Studenten an der Universität Rostock seit 1419, Studienarbeit
    • Falk Hoyer: Interaktionen zwischen Prozess- und Datenmodellierung, Studienarbeit

    2007

    • Elfriede Tromp: Analysis of Passengers On-Board Revenues of a Cruise Line by means of Data Mining. Master Thesis.

    2006

    • Maike Milling: Methoden zur Datenbankevolution, Software-Evolution und Evolution von XML-Schemata. Diplomarbeit
    • Christian Will: Entwicklung und Implementierung einer Sprache zur Evolution von XML-Schemata. Diplomarbeit
    • Dagmar Köhn: A Schema Matching Architecture for the Bioinformatics Domain. Diplomarbeit
    • Robert Stephan: Entwicklung und Implementierung einer Methode zum konzeptionellen Entwurf von XML-Schemata. Diplomarbeit
    • Marcus Oertel: Kopplung von Schemaevolutionsschritten und graphischem Entwurf. Studienarbeit
    • Andre Peters: Automatische Modulableitung aus vorhandenen Schemata. Studienarbeit
    • Anke Diderich: Effizienzbewertung für XML-Anwendungen. Studienarbeit
    • Bastian Schulz: Effiziente Strukturierung biometrischer Iris-Datenbanken. Studienarbeit
    • Christian Will: Ableitung von Schemaevolutionsschritten aus XML-Updateoperationen. Studienarbeit

    2005

    • Steffi Falk: Algorithmus zu Ähnlichkeitsbestimmung von XML-Schemata und XML-Dokumenten. Diplomarbeit.
    • Gregor Zimmermann: Wiederverwendbarkeit im XML-Schemaentwurf. Diplomarbeit
    • Tobias Tiedt: Schemaevolution und Adaption von XML-Dokumenten und XQuery-Anfragen. Diplomarbeit, elektronische Fassung
    • Torsten Bittner: Meta-Informationen Driven Mapping between Services. Diplomarbeit.
    • Marco Übner: Gütekriterien für XML-Anwendungen. Studienarbeit.
    • Maike Milling: Erweiterbare XML-Speicherung von Simulationsmodellen. Studienarbeit.
    • Andreas Siepert: Entwicklung einer Speicherungskomponente für X3D-Dokumente. Studienarbeit.
    • Jana Jonas: Evaluating XML Database Benchmarks and Analyzing the Integration of XML-Schema Evolution Steps. Studienarbeit.

    2004

    • Manja Nelius: Structure Mining für die Wismarer Grundbücher des 16.-19. Jahrhundert. Diplomarbeit, elektronische Fassung
    • Torsten Bittner: Performance Evaluation for XSLT Processing. Studienarbeit

    2003

    • Tobias Tiedt: Normalform für XML-Schemata. Studienarbeit, elektronische Fassung
    • Lars Milewski, Ines Weber: XML for OLAP. Studienarbeit

    2002

    • Lars Schneider: Entwicklung von Metriken für XML-Dokumentkollektionen. Diplomarbeit, elektronische Fassung
    • Birger Hänsel: Architektur und Realisierung eines persistenten XML-Speichers. Diplomarbeit
    • Nils Ackermann: A DAD Advisor for the DB2 XML Extender. Bachelorthesis

    2001

    • Cornelia Laudien: Ein Meta-Lerner zur automatischen Auswahl von Data-Mining-Verfahren. Diplomarbeit
    • Rasmus Faust: Prolog-basierte Modellierung von Format-Evolution. Diplomarbeit
    • Andre Zeitz: Evolution von XML-Dokumenten. Studienarbeit
    • Andreas Schulz: Anreicherung von Webseiten um beschreibende Metadaten. Studienarbeit
    • Birger Hänsel: XML-DataBlade. Studienarbeit
    • Franka Reuter: Implementierung eines Algorithmus zur Speicherung von XML-Daten in objektrelationalen Datenbanken. Studienarbeit
    • Mathias Zarick: Konzeption einer Suchmaschine für XML-Dokumente. Studienarbeit

    1999

    • Beate Porst: Untersuchungen zu Datentyperweiterungen für XML-Dokumente und ihre Anfragemethoden am Beispiel von DB2 und Informix, Diplomarbeit, elektronische Fassung.  
    • Jens Timm: Speicherung von XML-Dateien in Objekt-relationalen Datenbanken, Diplomarbeit.

    1994

    • Jürgen Apel: Die Entwicklung eines Strategieberaters für den Datenbankentwurf, Diplomarbeit.