Software-Stack

Hadoop

Das Hadoop Framework bildet die Basis des Systems. Mit verteilten Datenbank- und Dateisystemen, redundanter Datenhaltung und paralleler Verarbeitung von intensiven Rechenprozessen sind alle Voraussetzungen für skalierbare ML-Projekte erfüllt. Das Framework nutzt die verfügbare Hardware optimal aus und kann daher auch besonders große Datenmengen effizient verarbeiten.


AI-Platform / Toolstack

Der eingesetzte Software-Stack besteht, neben verschiedenen Datenbank Konzepten, wie Hadoop HBase (NoSql) und Hadoop Hive (SQL), und einem verteilten Dateisystem (Hadoop HDFS), aus einer Reihe weiterer Tools. Somit ergeben sich viele Ansätze und Möglichkeiten Methoden des maschinellen Lernens in Projekten erfolgreich umzusetzen. Je nach Projektanforderungen kann der Toolstack individuell an die erforderlichen Bedingungen angepasst und erweitert werden. Eine Auswahl von Tools die in unseren Projekten zum Einsatz kommen:

  • Programmierung: Python3
  • Virtualisierung: docker, anaconda, virtualenv
  • Notebook Platform: Jupyter Hub
  • Machine Learning: TensorFlow, Keras, Scikit-learn
  • Data Analysis: pandas, matplotlib, rapids
  • Smart Service Interface: django, flask, nodejs


GPU Nodes für Deep Learning

8 CUDA-fähige GPUs (NVIDIA Tesla-P100 je 12 GB) gewährleisten die notwendige Performanz zur Ausführung rechenintensiver Operationen wie beispielsweise maschinelles Lernen mit tiefen neuronalen Netzen. So können auch komplexe Pipelines und Lernprozesse mit einer großen Anzahl an Parametern effizient ausgeführt werden. Verfügbare APIs:

  • NVIDIA CUDA
  • OpenCL
  • OpenACC