Mit Cloud Pak for Data auf einfache Weise einen Data Lake aufbauen

Wilfried Hoge
3 min readMar 25, 2020

Kontrollierter Zugang zu Daten und eine Informations-Architektur, die dort bereitgestellt wird, wo Sie es wünschen: in ihrem Rechenzentrum oder in einer beliebigen Cloud.

Unternehmen investieren in Künstliche Intelligenz (KI) und Maschinelles Lernen (ML), weil sie das Potenzial sehen, mit ihnen Geschäftsprozesse zu verbessern. Es gibt jedoch zwei wichtige Voraussetzungen, um mit der Integration von KI und ML in die Prozesse erfolgreich zu sein: Daten und eine Informations-Architektur

Data Lake

Die Implementierung von KI und ML bedeutet im Grunde, Modelle mit bekannten Daten zu trainieren und diese Modelle dann zu nutzen, um Erkenntnisse über neue Daten zu gewinnen. Der Zugang zu bekannten Daten ist also wesentlich, um KI und ML zum Leben zu erwecken. Das bekannteste Konzept zur Bereitstellung von Daten für die Modellbildung ist der Data Lake. Während für die meisten ein Data Lake mit Hadoop identisch ist, hat das IBM Data and AI Team die Vorstellung von einem Data Lake als ein Konzept, um einen einfachen Zugang zu Daten zu erhalten. Dies könnte eine Hadoop-Umgebung sein, aber auch eine Reihe von Repositories. Diese Repositories könnten verschiedene Technologien wie Object Storage, relationale Datenbanken und NoSQL-Speicher umfassen. Es war uns schon immer wichtig, dass die Datenbewegung zu einem zentralen Speicher nur eine Option und keine Notwendigkeit ist. Es reicht nicht aus, den Data Scientist und Analysten nur Zugang zu den Daten zu geben, es ist auch ein gewisses Maß an Kontrolle erforderlich. Wenn der Data Lake mit dem richtigen Maß an Kontrolle kombiniert wird, sprechen wir von einem Governed Data Lake.

Cloud Pak for Data

Die Informationsarchitektur (IA) zur Implementierung von KI und ML ist ebenso wichtig wie der Zugang zu den Daten: Unser Motto There’s no AI without IA drückt dies recht gut aus. Aber es ist eine komplexe Aufgabe, eine geeignete Informations-Architektur von Grund auf aufzubauen. Es sind mehrere Komponenten notwendig, und diese Komponenten müssen integriert werden, um den Benutzern eine End-to-End-Umgebung zu ermöglichen. Mit Cloud Pak for Data haben wir eine Plattform, die eine Informations-Architektur out of the box implementiert. Die Dienste, die ein Kunde benötigt, um KI und ML zum Leben zu erwecken, sind bereits integriert, und die Einrichtung kann in kürzester Zeit oder innerhalb weniger Tage im Rechenzentrum erfolgen. Dienste in Cloud Pak for Data wie Watson Knowledge Catalog, Data Virtualization und Watson Studio machen es so einfach wie nie zuvor, einen Governed Data Lake zu erstellen.

Wo installieren?

Cloud Pak for Data ist eine Softwarelösung, die auf Red Hat OpenShift basiert. Sie bietet eine integrierte Umgebung, die Sie in öffentlichen Cloud-Umgebungen finden können, mit der Freiheit, sie dort einzusetzen, wo Sie sie haben wollen: heute in Ihrem Rechenzentrum, morgen bei Cloud-Anbieter A und nächstes Jahr bei Cloud-Anbieter B. Erfahren Sie mehr darüber auf der Homepage des Cloud Pak for Data.

Lightboard Aufnahme zu Governed Data Lake

--

--

Wilfried Hoge

Analytics Architect at @IBM. Member of @D64eV, interested in Data Science, Data Lake, IoT and Machine Learning. My views are my own.