Die optimale Infrastruktur für Big-Data und maschinelles Lernen
Hardware
Derzeit besteht die Hardware-Ausstattung des Clusters aus insgesamt 18 Servern, die über ein Infiniband-Netzwerk mit 56 Gbit/s miteinander verbunden sind. In Kombination mit dem Hadoop Framework ist der Cluster speziell darauf ausgerichtet große Datenmengen effizient zu verarbeiten, und intensive Rechenprozesse parallel/verteilt auszuführen. Zudem stehen eine Reihe fortschrittlicher KI-Tools zur Verfügung, mit denen verschiedene Schritte und Ansätze im Data-Science Workflow abgebildet werden können. Der Data-Analytics-Cluster bietet die Möglichkeit, je nach Anforderung, individuelle Umgebungen für Data-Science-Projekte bereitzustellen.
Besonders auf Sicherheit, Schutz und Integrität von Daten wurden beim Design der Cluster-Architektur großer Wert gelegt. Von den Benutzerschnittstellen bis zur Backup-Schicht erstrecken sich insgesamt 4 Sicherheitszonen, um sämtliche Daten in jeder Ebene zu schützen. Die Datenübertragung in den Cluster erfolgt durchgängig über verschlüsselte Verbindungen, Zugriffsberechtigungen auf abgelegte Daten sind maximal beschränkt. Somit wird ein verantwortungsbewusster Umgang mit sensiblen Datensätzen und Informationen gewährleistet. Über ein doppelt redundantes, verteiltes Dateisystem (Hadoop HDFS) mit angebundenem Backup-Layer (NAS) erfolgt ein zusätzlicher Schutz vor Datenverlusten.