Modul 39-Inf-DI Data Integration

Fakultät

Modulverantwortliche*r

Turnus (Beginn)

Jedes Sommersemester

Leistungspunkte und Dauer

5 Leistungspunkte

Die Angaben zur Moduldauer finden Sie bei den Studiengängen, in denen das Modul verwendet wird.

Kompetenzen

Die Studierenden erlernen in den Vorlesungen und Übungen heterogener Datenquellen, d. h. die Kombination von Daten aus verschiedenen Datenquellen, zu integrieiren, um eine globale Sicht auf eine Menge von relevanten Entitäten zu erhalten, was eine der großen Herausforderungen im Datenmanagement, insbesondere im Big Data-Zeitalter ist, da diese Integration den Schlüssel darstellt um mit Vielfalt umzugehen. Das Problem wird seit Jahrzehnten betrachtet und dieses Modul behandelt Grundlagen der Datenintegration sowie algorithmische und systemische Aspekte. Das Modul beinhaltet eine Klausur zu Semesterende.

Students learn in the lectures and are the exercise courses how to integrate heterogeneous data sources, i.e. how to combine data residing in different data sources to obtain a global view of the data relating to relevant entities, which represents one of the major challenges in data management especially in the Big Data era as this integration is key to addressing the issue of variety. The problem has been considered for decades, and the lectures will cover foundations of data integration as well as algorithmic and system aspects. The module includes an exam at the end of the term.

Lehrinhalte

Lehrinhalte:

  • Arten der Datenintegration und zugehörige Architekturen von Datenintegrationssystemen
  • Überwindung schematischer Heterogenitäten zwischen integrierten Datenquellen (Schema- und Ontologie-Mapping sowie Schema- und Ontologie-Matching)
  • Datendeduplikation, -fusion und -kuration
  • Mitführen der Datenherkunft während der Integration
  • Ontologie-basierte Datenintegration
  • Entitätserkennung und -verlinkung
  • Informationsextraktion aus Texten (Entitätserkennung und -verknüpfung, Relationsextraktion)
  • Informationsextraktion aus Web-Tabellen

Topics covered in this module:

  • Types of data integration and associated architectures of integrating systems
  • Overcoming schematic heterogeneities between integrated data sources (schema/ontology mapping and schema/ontology matching)
  • Data de-duplication, fusion and curation
  • Keeping track of the integration process through data provenance.
  • Ontology-based data integration
  • Entity matching / record linkage
  • Information extraction from text (entity recognition and linking, relation extraction)
  • Information extraction from Web tables

Empfohlene Vorkenntnisse

Notwendige Voraussetzungen

Erläuterung zu den Modulelementen

Modulstruktur: 1 bPr 1

Veranstaltungen

Data Integration
Art Vorlesung
Turnus SoSe
Workload5 60 h (30 + 30)
LP 2 [Pr]
Data Integration
Art Übung
Turnus SoSe
Workload5 60 h (30 + 30)
LP 2

Prüfungen

Portfolio mit Abschlussprüfung
Zuordnung Prüfende Lehrende der Veranstaltung Data Integration (Vorlesung)
Gewichtung 1
Workload 30h
LP2 1

Portfolio aus Übungs- oder Programmieraufgaben, die veranstaltungsbegleitend und in der Regel wöchentlich gestellt werden, und Abschlussklausur (60 Minuten) oder mündlicher Abschlussprüfung (in der Regel 15 min). Die Übungsaufgaben ergänzen und vertiefen den Inhalt der Vorlesung.
Nachweis einer ausreichenden Zahl korrekt gelöster Übungsaufgaben (in der Regel 50% der im Semester für das Lösen der Aufgaben erzielbaren Punkte).
Die abschließende mündliche Prüfung bezieht sich auf den Stoff der Vorlesung und der Übungen.

Portfolio consisting of per default weekly exercises or programming tasks and final written exam (per default 60 minutes) or final oral exam (per default 15 minutes). The exercises are based on the content of the lecture and enable students to train and further investigate the topics. It is required that a sufficient percentage of the exercises are successfully completed (per default 50% of the total number of points which can be achieved during a semester). The final oral exam concerns both, the content of the lecture as well as the exercises.

In diesen Studiengängen wird das Modul verwendet:

Studiengang Profil Empf. Beginn 3 Dauer Bindung 4
Data Science / Master of Science [FsB vom 06.04.2018 mit Änderungen vom 01.07.2019, 02.03.2020 und 21.03.2023] Variante 1 2. ein Semes­ter Wahl­pflicht
Data Science / Master of Science [FsB vom 06.04.2018 mit Änderungen vom 01.07.2019, 02.03.2020 und 21.03.2023] Variante 2 2. ein Semes­ter Wahl­pflicht

Automatische Vollständigkeitsprüfung

In diesem Modul kann eine automatische Vollständigkeitsprüfung vom System durchgeführt werden.


Legende

1
Die Modulstruktur beschreibt die zur Erbringung des Moduls notwendigen Prüfungen und Studienleistungen.
2
LP ist die Abkürzung für Leistungspunkte.
3
Die Zahlen in dieser Spalte sind die Fachsemester, in denen der Beginn des Moduls empfohlen wird. Je nach individueller Studienplanung sind gänzlich andere Studienverläufe möglich und sinnvoll.
4
Erläuterungen zur Bindung: "Pflicht" bedeutet: Dieses Modul muss im Laufe des Studiums verpflichtend absolviert werden; "Wahlpflicht" bedeutet: Dieses Modul gehört einer Anzahl von Modulen an, aus denen unter bestimmten Bedingungen ausgewählt werden kann. Genaueres regeln die "Fächerspezifischen Bestimmungen" (siehe Navigation).
5
Workload (Kontaktzeit + Selbststudium)
SL
Studienleistung
Pr
Prüfung
bPr
Anzahl benotete Modul(teil)prüfungen
uPr
Anzahl unbenotete Modul(teil)prüfungen
Diese Leistung kann gemeldet und verbucht werden.