Lehrveranstaltungen im aktuellen Semester

  • Einführung in die Informatik (für Studenten der Studiengänge WiWi und Wi-Päd.)
    • Vorlesung: Donnerstag 9.00 -11.00 Uhr, Audimax
    • Übung: Dienstag 15.00-17.00 Uhr, Audimax

Zu vergebene Abschlussarbeiten (Bachelorarbeiten, Masterarbeiten)

Im Themenbereich NoSQL-Daten, Schema-Management, Schema-Evolution sind jederzeit Abschlussarbeiten zu vergeben. Bitte vereinbaren Sie einen Termin (meike.klettkeuni-rostockde).

Erweiterung einer NoSQL-Evolutionssprache

Erweiterung einer NoSQL-Evolutionssprache

Hintergrund

Im thematischen Rahmen des DFG-Projektes „NoSQL-Schemaevolution und skalierbare Big Data Datenmigration“ wird eine Bachelorarbeit angeboten. Im DFG-Projekt wird ein Prototyp „Darwin“ implementiert, der die Schemaevolution und Datenmigration von NoSQL-Datenbanken automatisiert. Weitere Aspekte in dem Projekt sind die Schema-Extraktion für NoSQL Datenbanken.

Aufgabenstellung

Der Softwareprototyp „Darwin“ stellt unter anderem Features zur Schemaevolution von NoSQL-Datenbanken durch fünf Operationen (add, rename, delete, move, copy) bereit. Dabei können auf einer NoSQL-Datenbank bei allen Dokumenten einer Collection Properties hinzugefügt, umbenannt oder entfernt werden oder Properties zwischen Collections anhand einer Matching-Bedingung  verschoben oder kopiert werden.

Die Evolutionssprache soll um die zwei zusätzliche Operationen „split“ und „merge“ erweitert werden, die die Properties einer Collection in zwei Collections aufteilt („split“) bzw. zwei Collections mit einer disjunkten Menge von Properties zu einer Collection zusammenfasst („merge“). Die Lösung zur Problematik soll konzeptionell entwickelt, die Semantik der Operation definiert und in Darwin implementiert werden. Ergebnisse sind zu dokumentieren.

Wird diese Thematik als Bachelorarbeit bearbeitet, soll zusätzlich untersucht werden, wie split und merge sich bei einer nicht-disjunkten Teilmenge an Properties auswirkt. Dieser Umstand hat zur Folge, dass durch eine merge-Operation Properties verschiedener Collections mit dem identischen Namen zu einem Property zusammengefasst werden müssen. Insbesondere für die merge-Operation sind Konfliktlösungsstrategien notwendig, die ebenfalls untersucht, konzeptioniert und prototypisch implementiert werden sollen.

Benötigte Kompetenzen

  • Solide Kenntnisse in Java und NoSQL (insbesondere MongoDB)
  • Kenntnisse in ANTLR v4 zur Erweiterung der Eingabesprache
  • Grundlegende Kenntnisse in UML für die technische Dokumentation
  • Grundlegende Kenntnisse im Java-Framework Spring und Maven

Rahmenbedingungen

  • Als Softwareprojekt (6 CP)
  • Als Bachelorarbeit (CP nach Studiengang) mit erweiterter Themenstellung

Einstiegsliteratur

  • Meike Klettke, Hannes Awolin, Uta Störl, Daniel Müller, Stefanie Scherzinger: Uncovering the Evolution History of Data Lakes, 6th Scalable Cloud Data Management Workshop (SCDM) @ IEEE Big Data Conference, Boston, USA, December 2017
  • Uta Störl, Daniel Müller, Meike Klettke, Stefanie Scherzinger: Enabling Efficient Agile Software Development of NoSQL-backed Applications, BTW Demo 2017
  • Mark Lukas Möller, Meike Klettke, Uta Störl: Formal Semantics of NoSQL Evolution Operations for Different Data Heterogeneity Classes, Technical Report, 2018.

Kontakt

Mark Lukas Möller/Meike Klettke
Institut für Informatik, Zi. 240/241
E-Mail: mark.moeller2uni-rostockde bzw. meike.klettkeuni-rostockde

Visualisierung von Schema-Versionen, NoSQL-Daten und Schema-Evolutionsoperationen

Visualisierung von Schema-Versionen, NoSQL-Daten und Schema-Evolutionsoperationen

Motivation des Themas:

Die schemalose Speicherung in NoSQL-Datenbanken bewirkt, dass in diesen häufig heterogene Datensätze gespeichert sind. Bei jeder Art der Verwendung oder Auswertung dieser Daten ist der erste Schritt „Understanding of the NoSQL Data“. Für diesen Schritt soll eine Visualisierung konzipiert und entwickelt werden. Bereits vorhanden sind Programme, die zu einer gegebenen NoSQL-Datenbank die Schemaversionen über die Zeit ableiten, diese stehen als JSON Schema bereit. Weiterhin sind bereits die Evolutions-operationen vorhanden, die die Änderungen von einer Version zu der Nachfolgerversion beschreiben. Diese Evolutionssprache enthält die Operationen add, delete, rename, copy und move. In einigen Fällen werden aus den Daten mehrere Varianten der Evolutionsoperationen abgeleitet, hier wird eine Benutzerentscheidung benötigt, welche ausgewählt werden soll. Visualisiert werden sollen die JSON-Schemata als relativ kompakte Graphen sowie die Evolutionsoperationen zwischen diesen. Optional können dazu ebenfalls beschriebene Merkmale zu den NoSQL-Daten und Beispiele aus diesen Daten dargestellt werden. Durch geeignete Techniken soll eine interaktive Exploration ermöglicht werden.

Aufgabe:

Im Rahmen dieser Bachelorarbeit soll dafür folgende Aufgabe gelöst werden.

  1. Einarbeitung in NoSQL (JSON) und JSON-Schema
  2. Literaturüberblick zur Visualisierung zeitveränderlicher Graphen
  3. Erstellung eines Anforderungskataloges für die interaktive Visualisierung
  4. Auswahl eines Visualisierungsverfahrens und prototypische Umsetzung
  5. Abfassung der schriftlichen Arbeit und Präsentation der Ergebnisse

Umsetzung:

  • Mongodb
  • Java oder JavaScript

Betreuer:

  • PD Dr.-Ing. habil. Christian Tominski
  • PD Dr.-Ing. habil. Meike Klettke

    Literatur:

    • JSON Schema, json-schema.org
    • Meike Klettke, Uta Störl, Stefanie Scherzinger: Schema Extraction and Structural Outlier Detection for NoSQL Data Stores. BTW 2015
    • Meike Klettke, Stefanie Scherzinger, Uta Störl: Datenbanken ohne Schema? - Herausforderungen und Lösungs-Strategien in der agilen Anwendungsentwicklung mit schema-flexiblen NoSQL-Datenbanksystemen. Datenbank-Spektrum 14(2): 119-129
    • Aigner et al.: Visualization of Time-Oriented Data, Springer, 2011
    • Tominski et al.: CGV – An Interactive Graph Visualization System, Computers & Graphics 33(6), 2009
    • Hadlak et al.: A Survey of Multi-faceted Graph Visualization, EuroVis State-of-the-art-report, 2015

    Die Arbeit ordnet sich in die Arbeiten zu „Schema-Management für NoSQL-Datenbanken“ ein, die seit 2013 zusammen mit der Hochschule Darmstadt und der OTH Regensburg durchgeführt werden.

    Konzeption und Einsatz eines Data Dictionary für Data Lakes

    Konzeption und Einsatz eines Data Dictionary für Data Lakes

    Im Rahmen dieser Masterarbeit sollen Daten in einem Data Lake auffindbar und verfügbar gemacht werden. Dazu sollen die Metadaten der verfügbaren Datenquellen in einem einheitlichen Katalog (Data Dictionary) dargestellt werden, dieses soll in mysql erstellt werden. 

    Es soll zunächst ein einheitliches Data Dictionary für die Verwaltung und das Auffinden von Daten in verschiedenen DBMS konzipiert werden. Für relationale Datenbanken (mysql), NoSQL-Datenbanken (mongoDB) und Graphdatenbanken (Neo4J) sollen die Metadaten abgeleitet werden und in dem Data Dictionary bereitgestellt werden.

    Eine detailliertere Beschreibung finden Sie hier.

    Feature Extraction für heterogene Daten in Data Lakes

    Feature Extraction für heterogene Daten in Data Lakes

    Im Rahmen dieser Masterarbeit sollen beschreibende Features aus den Daten abgeleitet werden und in einem Data Lake zu dem Data Dictionary organisiert werden. Dazu sollen die verfügbaren Datenquellen in verschiedenen Formaten - relational, NoSQL (JSON) und Graph – ausgewertet werden und beschreibende Features wie Integritätsbedingungen, Informationen zum Wertebereich, abhängige Attribute und kausale Zusammenhänge in einem einheitlichen Katalog (Data Dictionary) dargestellt werden. Dabei soll die Feature Extraktion sowohl innerhalb einer Datenbank (in einem Datenmodell) als auch zwischen verschiedenen Datenbanken (in verschiedenen Datenmodellen) erfolgen. Referenzen und redundante Informationen sollen zwischen verschiedenen Modellen ableitbar sein und im DD dargestellt werden.     

    Das entstehende Data Dictionary soll die Suche nach Datenquellen für Analyseaufgaben anhand von verschiedenen Eigenschaften (Features) ermöglichen.

    Eine ausführliche Beschreibung des Themas ist hier zu finden.

    Implementierung einer Query Rewriting-Komponente für NoSQL-Datenbanken

    Implementierung einer Query Rewriting-Komponente für NoSQL-Datenbanken

    Als Masterarbeit oder HiWi/WiMi-Job

    Hintergrund

    Im thematischen Rahmen des DFG-Projektes „NoSQL-Schemaevolution und skalierbare Big Data Datenmigration“ wird ein Job für eine studentische oder wissenschaftliche Hilfskraft angeboten. Für das DFG-Projekt wurde in der Vergangenheit bereits ein Prototyp namens „Darwin“ implementiert, der bei der Lösung von Aufgaben im Bereich der Schemaevolution und Datenmigration von NoSQL- Datenbanken automatisiert unterstützt.

    Aufgabenstellung

    Der Softwareprototyp „Darwin“ stellt unter Anderem Features zur Schemaevolution und Datenmigration von NoSQL-Datenbanken durch fünf Evolutionsoperationen (add, rename, delete, move, copy) bereit. Für die Ausführung der Operationen gibt es zwei Hauptparadigmen: Operationen werden entweder physisch sofort umgesetzt und Daten direkt in das neue Schema migriert („Eager Migration“) oder das alte Datenbankschema wird beibehalten („Lazy Migration“) und Anfragen an die Datenbank werden umgeschrieben, sodass das Anfrageergebnis so aussieht, als wäre das Schema schon verändert und Daten migriert worden („Query Rewriting“). Die Informationen über die Evolutionensoperationen werden dafür in Form eines Graphen gespeichert, auf dessen Basis eine Query Rewriting-Komponente in Darwin implementiert werden soll. Ergebnisse müssen dokumentiert werden. Eine theoretische Vorarbeit für den Algorithmus ist vorhanden und wird bereitgestellt.

    Benötigte Kompetenzen

    • Solide Kenntnisse in Java

    • Kenntnisse in NoSQL (insbesondere MongoDB)

    • Grundkenntnisse in der Softwaredokumentation, insbesondere UML

    • Grundkenntnisse in Antlr4 zur Erweiterung der Anfragesprache erwünscht

    • Wünschenswert sind Kenntnisse im Java-Framework Spring und Maven

    Rahmenbedingungen

    • Als Masterarbeit (20 Wochen)
    • Als studentische oder wissenschaftliche Hilfskraft (angestrebt mit 10 Stunden/Woche, auf Absprache auch mehr oder weniger)

    Der genaue Umfang orientiert sich an der Art der Arbeit (Masterarbeit, Hilfskraftjob) und wird im Voraus festgelegt.

    Kontakt

    Mark Lukas Möller
    Institut für Informatik, Zi. 240
    E-Mail: mark.moeller2uni-rostockde
    Tel.: 0381 498-7606

    Meike Klettke
    Institut für Informatik, Zi. 241
    Email: meike.klettkeuni-rostockde
    Tel.: 0381 498-7596

    Abgeschlossene Bachelor-, Master und Diplomarbeiten

    2018

    • Felix Beuster: Schema Extraction and NoSQL Data Profiling, Masterarbeit 2018
    • Paul Wegener: Effizientes Reverse Engineering von Keys und Quasi-Keys aus komplexen, heterogenen und verrauschten NoSQL-Daten, Masterarbeit, 2018

    2017

    • Felix Wächter: Konzeption eines Polystores für relationale Datenbanken, Graphdatenbanken und NoSQL-Datenbanken und Definition beschreibender Metadaten, noch laufend
    • Hannes Awolin: Verfahren zur Ermittlung von Integritätsbedingungen in NoSQL-Datenbanken, Masterarbeit
    • Sarath Reddy Ravula: Cost metrics for NoSQL datastores, Master thesis
    • Claudia Hamann: Big Data Technologies - Tasks, Challenges, and Economic Evaluation

    2016

    • Tjark Krause: Datenmigration in Data-Warehouses - Konzeption und Entwicklung eines Prozesses zur Transformation von Star- bzw. Snowflake-Schemen zu Data Vault, Bachelorarbeit
    • Felix Beuster: Data-Integration Pipeline für die Transformation von NoSQL-Daten (JSON) in relationale Datenbanken, Bachelorarbeit, elektronische Fassung
    • Robert Schiller: Varianten zur Speicherung multidimensionaler Daten - qualitative und quantitative Bewertung von Star- und Snowflakeschema, Data Vault und Column Stores, Masterarbeit
    • Jacob Langner: Entwicklung und Evaluierung verschiedener Verfahren zur inkrementellen Schema-Extraktion für NoSQL Daten, Masterarbeit, elektronische Fassung
    • Paul Wegener: Auswahl und Evaluierung von adaptiven Data Mining Verfahren zur Bewertung von Kundendaten, Bachelorarbeit
    • Eike Wilke: Entwicklung von Metriken zur Bewertung von NoSQL-Anwendungen, Bachelorarbeit

    2015

    • Stefan Voshage: Evaluation von Technologien der Informationsextraktion für die Informationsbeschaffung am Beispiel des Pflegemarktes. Bachelorarbeit

    2014

    • Marcel Apfelt: Entwicklung einer Schema-Evolutionskomponente für eine NoSQL-Datenbank. Masterarbeit, elektronische Fassung
    • Norman Soetbeer: Konzeption und Implementierung einer Sichtenverwaltung für NoSQL-Datenbanken. Diplomarbeit
    • Chris Kaping: Management von Typhierarchien in der XML-Schemaevolution, Masterarbeit, elektronische Fassung
    • Suren Gjulbekjan: Conception for optimized storage and removal of enterprise information, Masterarbeit

    2013

    • Mats Möller: Entwicklung eines Verfahrens zur Integration von Forschungs- und Entwicklungsdaten für das Unternehmen Beiersdorf, Masterarbeit
    • Jan Deffke: Entwicklung eines Matching- und Mappingverfahrens zur Verbesserung der XML-Schemaevolution, Masterarbeit
    • Daniel Merkel: Modellierung und Implementation eines gekapselten Zugriffes auf mehrdimensionale Datacubes, Bachelorarbeit
    • Chris Kaping, Transformation von Modellierungsstilen in XML-Schemata, Bachelorarbeit
    • Marcel Apfelt: Recommendertechniken für den Entwurf von XML-Schemata, Bachelorarbeit
    • Hannes Grunert: Integration von Integritätsbedingungen bei der XML-Schemaevolution, Masterarbeit, elektronische Fassung

    2012

    • Jan Deffke: XML-Schema Evolution in der Praxis, Bachelorarbeit
    • Josephine Freymann: Vergleich unterschiedlicher Data-Warehouse-Realisierungen bei dem mittelständischen Unternehmen Lufthansa Technik Logistik Service GmbH, Diplomarbeit

    2011

    • Raik Wehser: Datenintegration von relationalen Datenbanken und XML-Dokumenten am Beispiel eines konkreten PEP-/PDM-Systems und des System-Templates von AUTOSAR, Diplomarbeit
    • Iman Kamenhkhosh: Comparison, Test and Evaluation of Recommendation Techniques for web-Based Applications, Master Thesis
    • Hannes Grunert: XML-Schema Evolution: Kategorisierung und Bewertung, Bachelor Thesis
    • Josephine Freymann: Vergleichende Betrachtung der ETL-Systeme Talend und IBM DataStage für den Einsatz bei der Lufthansa Technik Logistik GmbH, Studienarbeit
    • Frank Gutknecht: Marketing 2.0: Identifizierung von Superspreadern in Online-Business-Netzwerken, Bachelorarbeit

    2010

    • Robert Hälke, Versionierungskonzepte und -techniken für Biochemische Simulationsmodelle, Diplomarbeit
    • Marco Diederich, Entwicklung und Implementierung eines Data-Mining basierten Verfahrens für den Datenbankentwurf, Diplomarbeit

    2009

    • Marcel Buchhardt: Vergleich von vollständigen Splits und lokalen Splits, Diplomarbeit
    • Maik Heyden: Modellierung, Speicherung und Retrieval von historischen Institutsentwicklungen unter Verwendung von Graphen, Diplomarbeit
    • Ronny Wernicke: Dynamik in Gridfiles, Diplomarbeit
    • Sebastian März: Ableitung von Assoziationsregeln aus XML-Dokumenten, Studienarbeit, 2009 Marco Diederich: Datenbankentwurfstool auf der Basis vorhandener Entwürfe, Studienarbeit
    • Tony Möller: Komponentenbasierter Entwurf von XML-Schemata, Studienarbeit
    • Thomas Nösinger: Anfrageoptimierung in Data Warehouses durch Verwendung voraggregierter Views, Diplomarbeit
    • Marcel Buchhardt: Benutzerinterface zur XQuery-Formulierung, Studienarbeit

    2008

    • Sebastian Schulz: Einsatz von Replikationsverfahren für die Softwareevolution. Diplomarbeit
    • Christian Schubert: Model Driven Engineering für XML-Anwendungen. Diplomarbeit
    • Alexander Stuhr: Informationssystem für die Erschließung der Studenten an der Universität Rostock seit 1419, Studienarbeit
    • Falk Hoyer: Interaktionen zwischen Prozess- und Datenmodellierung, Studienarbeit

    2007

    • Elfriede Tromp: Analysis of Passengers On-Board Revenues of a Cruise Line by means of Data Mining. Master Thesis.

    2006

    • Maike Milling: Methoden zur Datenbankevolution, Software-Evolution und Evolution von XML-Schemata. Diplomarbeit
    • Christian Will: Entwicklung und Implementierung einer Sprache zur Evolution von XML-Schemata. Diplomarbeit
    • Dagmar Köhn: A Schema Matching Architecture for the Bioinformatics Domain. Diplomarbeit
    • Robert Stephan: Entwicklung und Implementierung einer Methode zum konzeptionellen Entwurf von XML-Schemata. Diplomarbeit
    • Marcus Oertel: Kopplung von Schemaevolutionsschritten und graphischem Entwurf. Studienarbeit
    • Andre Peters: Automatische Modulableitung aus vorhandenen Schemata. Studienarbeit
    • Anke Diderich: Effizienzbewertung für XML-Anwendungen. Studienarbeit
    • Bastian Schulz: Effiziente Strukturierung biometrischer Iris-Datenbanken. Studienarbeit
    • Christian Will: Ableitung von Schemaevolutionsschritten aus XML-Updateoperationen. Studienarbeit

    2005

    • Steffi Falk: Algorithmus zu Ähnlichkeitsbestimmung von XML-Schemata und XML-Dokumenten. Diplomarbeit.
    • Gregor Zimmermann: Wiederverwendbarkeit im XML-Schemaentwurf. Diplomarbeit
    • Tobias Tiedt: Schemaevolution und Adaption von XML-Dokumenten und XQuery-Anfragen. Diplomarbeit, elektronische Fassung
    • Torsten Bittner: Meta-Informationen Driven Mapping between Services. Diplomarbeit.
    • Marco Übner: Gütekriterien für XML-Anwendungen. Studienarbeit.
    • Maike Milling: Erweiterbare XML-Speicherung von Simulationsmodellen. Studienarbeit.
    • Andreas Siepert: Entwicklung einer Speicherungskomponente für X3D-Dokumente. Studienarbeit.
    • Jana Jonas: Evaluating XML Database Benchmarks and Analyzing the Integration of XML-Schema Evolution Steps. Studienarbeit.

    2004

    • Manja Nelius: Structure Mining für die Wismarer Grundbücher des 16.-19. Jahrhundert. Diplomarbeit, elektronische Fassung
    • Torsten Bittner: Performance Evaluation for XSLT Processing. Studienarbeit

    2003

    • Tobias Tiedt: Normalform für XML-Schemata. Studienarbeit, elektronische Fassung
    • Lars Milewski, Ines Weber: XML for OLAP. Studienarbeit

    2002

    • Lars Schneider: Entwicklung von Metriken für XML-Dokumentkollektionen. Diplomarbeit, elektronische Fassung
    • Birger Hänsel: Architektur und Realisierung eines persistenten XML-Speichers. Diplomarbeit
    • Nils Ackermann: A DAD Advisor for the DB2 XML Extender. Bachelorthesis

    2001

    • Cornelia Laudien: Ein Meta-Lerner zur automatischen Auswahl von Data-Mining-Verfahren. Diplomarbeit
    • Rasmus Faust: Prolog-basierte Modellierung von Format-Evolution. Diplomarbeit
    • Andre Zeitz: Evolution von XML-Dokumenten. Studienarbeit
    • Andreas Schulz: Anreicherung von Webseiten um beschreibende Metadaten. Studienarbeit
    • Birger Hänsel: XML-DataBlade. Studienarbeit
    • Franka Reuter: Implementierung eines Algorithmus zur Speicherung von XML-Daten in objektrelationalen Datenbanken. Studienarbeit
    • Mathias Zarick: Konzeption einer Suchmaschine für XML-Dokumente. Studienarbeit

    1999

    • Beate Porst: Untersuchungen zu Datentyperweiterungen für XML-Dokumente und ihre Anfragemethoden am Beispiel von DB2 und Informix, Diplomarbeit, elektronische Fassung.  
    • Jens Timm: Speicherung von XML-Dateien in Objekt-relationalen Datenbanken, Diplomarbeit.

    1994

    • Jürgen Apel: Die Entwicklung eines Strategieberaters für den Datenbankentwurf, Diplomarbeit.