Intelligent Document Processing als Datenquelle für Data IngestionDer erste Schritt in eine sichere und nachhaltige Datenstrategie

Data Ingestion beschreibt das automatisierte Extrahieren, Strukturieren, Speichern und Übertragen von Daten. Der Prozess ermöglicht es, eine reibungslose Data Pipeline zu installieren. Diese Aufbereitung heterogener Daten in ein strukturiertes, cloudbasiertes Datenmanagementsystem ermöglicht es, sie automatisiert in Echtzeit zu analysieren und bietet damit einen entscheidenden Marktvorteil.

Retarus stellt mit seinem Intelligent-Document-Processing-Service eine wesentliche Datenquelle für Data Ingestion bereit. Der Service ermöglicht es Unternehmen, ihre vollständige Geschäftskommunikation zu digitalisieren, im erforderlichen Format strukturiert zur Verfügung zu stellen und damit komplette Workflows zu automatisieren.

Data Ingestion beschreibt einen Prozess, bei dem große Datenmengen aus verschiedenen Quellen importiert und in ein Speichermedium zusammengeführt werden. Dieses Zielmedium ist in der Regel ein cloudbasierendes oder lokal installiertes ERP-System. Die Daten können aber ebenso in ein Data Warehouse, einen Data Mart oder einen Data Lake eingespeist werden.

Um daraus einen Mehrwert ziehen zu können, müssen sich die Daten aus diesen Speichern einfach abrufen, verwenden und analysieren lassen. Nur wenn sie außerdem strukturiert sind, kann eine leistungsfähige Data Pipeline zustande kommen. Für diese Strukturierung sind spezielle Data-Wrangling-Tools nötig. Zusammengefasst werden bei der Data Ingestion unstrukturierte Daten digitalisiert, analysiert, extrahiert, strukturiert und auf einem Zielmedium gespeichert und verarbeitet.

Data Warehouse

Der Begriff Data Warehouse bezeichnet ein zentrales Datenbanksystem, das in Unternehmen zu Analysezwecken einsetzbar ist. Dieses System sammelt und speichert wichtige Daten aus verschiedenen Datenquellen und versorgt mit diesen nachgelagerte Systeme. Der Vorteil dieses Datenlagers ist, dass eine globale Sicht auf Daten aus ganz unterschiedlichen Datenbeständen entsteht.

Data Mart

Ein Data Mart ist eine subjektorientierte Datenbank. Häufig, aber nicht immer, handelt es sich dabei um ein Teilsegment eines Data Warehouses. Während Data Warehouses jedoch sämtliche Informationen eines Unternehmens enthalten, erfüllen Data Marts lediglich die Anforderungen bestimmter Geschäftsfunktionen oder Abteilungen.

Data Lakes

Data Lakes sind große Pools mit Rohdaten, für die noch keine Verwendung festgelegt ist. Diese Data Lakes können sowohl strukturierte als auch unstrukturierte Daten in großen Mengen für eine spätere Auswertung enthalten. Im Gegensatz zum Data Warehouse, das gesammelte Daten direkt in Strukturen und Formate überführt, können im Data Lake auch Daten im Rohformat abgespeichert werden.

Für eine erfolgreiche Ingestion gibt es aktuell drei mögliche Herangehensweisen: Real Time Ingestion, Batching Data Ingestion und Micro Batching. Abhängig von projektinternen Beschränkungen und den jeweiligen Datenquellen kann jede dieser Möglichkeiten die optimale Datenstrategie sein.

Real Time Data Ingestion

Bei der Real Time Data Ingestion, auch Stream Ingestion genannt, wird jedes Datenelement in Echtzeit importiert, sobald es verfügbar ist. Das bedeutet, dass jedes Datenelement als individuelles Objekt verarbeitet wird. Diese Art der Datenaufnahme ist sehr kostenintensiv, lohnt sich aber besonders für Analysen, die ständig aktuell sein müssen. Real Time Data Ingestion ist das einzig mögliche Format für Anwendungen, die auf Echtzeit-Daten angewiesen sind. Für den Handel am Aktienmarkt zum Beispiel ist eine Datenverarbeitung in Real Time essenziell.

Batch Data Ingestion

Die Batch Data Ingestion ist die häufigste Form der Datenaufnahme. Hierbei werden in fest definierten Abständen Quelldaten gesammelt und nach definierten Kriterien gruppiert. Diese kostengünstigere Methode ist also für Unternehmen nützlich, die täglich spezifische Daten sammeln und keine Entscheidungen in Echtzeit treffen müssen.

Micro Batching

Wie der Name bereits vermuten lässt, handelt es sich beim Micro Batching um eine Zwischenstufe zwischen Real Time Data Ingestion und Batch Data Ingestion. Die Daten werden zwar ebenfalls in Gruppen aufgeteilt, aber in deutlich kleineren Schritten importiert. Dabei werden sie zwar nicht einzeln verarbeitet, die Übertragungszeit ist aber um ein Vielfaches kürzer als bei großen Batches.

Data Ingestion vs. ETL

Data Ingestion und ETL, also Extract, Transform und Load, sind sehr ähnliche Prozesse, die sich allerdings in ihrem Ziel unterscheiden. Die Data Ingestion extrahiert und strukturiert Daten, um sie für eine Anwendung aufzubereiten, die ein bestimmtes Format benötigt. Dafür müssen die Datenquellen nicht mit dem Ziel verbunden sein.

Anders ist das bei ETL: Dieser spezifische Prozess bezieht sich primär auf die Datenvorbereitung für Data Warehouses und Data Lakes. Dabei geht es also vielmehr um eine langfristige Speicherung zur Nutzung für Business Intelligence (BI) und andere Analysen. ETL ist also auch ein Data-Ingestion-Prozess, doch er umfasst nicht nur die Entnahme von Daten und deren Transfer, sondern auch die Transformation der Daten, bevor diese an ihr Ziel weitergeleitet werden.

Die Vorteile der Data Ingestion

Data Ingestion bietet verschiedene Vorteile, die Anwendern in hart umkämpften Märkten den entscheidenden Vorsprung verschaffen können.



Hohe Verfügbarkeit von Daten

Einer der wichtigsten Vorteile der Ingestion ist die sofortige Verfügbarkeit der Informationen. Daten, die zuvor an verschiedenen Orten lokal gespeichert waren, können durch die zentrale, cloudbasierte Speicherung immer und überall abgerufen werden. Mithilfe festgelegter Autorisierungen können Abteilungen und Funktionsbereiche auf genau die Daten zugreifen, die sie benötigen.



Einfache Analyse dank Strukturierung

Besonders in der Kombination mit einer ETL-Lösung und einer damit verbundenen gleichmäßigen Formatierung vereinfachen Data Integration und Ingestion die Analyse. Die Daten lassen sich dank reduzierter Komplexität leichter verarbeiten. Pipelines können Daten sofort und komplett automatisiert in das Data Warehouse liefern.



Hohe Flexibilität

In Zusammenarbeit mit einem Intelligent-Document-Processing-Service können Datenübernahme-Tools auch unstrukturierte Datenformate verarbeiten. Die automatisierte Bearbeitung von Briefen, per E-Mail erhaltener PDFs oder Faxschreiben stellt somit kein Problem mehr dar. Diese Flexibilität ermöglicht reibungslose Abläufe in allen Bereichen.



Bessere Entscheidungsgrundlagen für Unternehmen

Verschiedene Analysetools liefern aus der Vielzahl an Datenquellen wertvolle BI-Einblicke. Mit Hilfe aufbereiteter Daten lassen sich Probleme und Chancen schnell identifizieren und bessere Entscheidungen treffen.

So meistern Unternehmen die Herausforderungen von Data Ingestion

Unternehmen, die Data Pipelines einrichten möchten, stehen vor Herausforderungen. Zu diesen zählen:

Compliance

Die wohl wichtigsten Aspekte im Umgang mit sensiblen Geschäftsdaten sind die Punkte Datensicherheit und Datenschutz. Bei der Data Ingestion werden Daten an mehreren Stellen der Data Pipeline bereitgestellt. Retarus unterstützt mit Intelligent Document Processing Unternehmen dabei, lokale und globale Anforderungen an Datenschutz und Datensicherheit jederzeit zu erfüllen: Die Cloud Services von Retarus sind vollständig DSGVO-konform und erfüllen weitere nationale und internationale Sicherheits- und Compliance-Anforderungen wie die EU Directive 95/46/EC, ISAE 3402 und SOC 1 und SOC 2 Typ II.

Kosten

Mit wachsendem Datenvolumen wächst auch die Notwendigkeit weiterer Speichersysteme und Server. Diese sind teuer und unter Berücksichtigung der Vorschriften zur Datensicherheit und zum Datenschutz aufwendig zu betreuen. Dieser Punkt ist allerdings nur bei der Nutzung von On-Premises-Anbietern ein Problem.

Datenqualität

Besonders herausfordernd ist es, die Datenqualität hochzuhalten. Intelligent Document Processing von Retarus erkennt mithilfe einer leistungsstarken Intelligent Document Recognition (IDR), die auf mehreren OCR-Engines basiert, bis zu 98 Prozent der Quelldaten korrekt. Die Hinzunahme von Human-In-The-Loop ermöglicht eine bis zu 100-prozentige Erkennungsrate. Damit schafft Retarus optimale Voraussetzungen, die digitalisierten Daten reibungslos automatisiert weiterzuverarbeiten.

Fragmentierung und Datenintegration

Oft ist Data Ingestion problematisch, weil es zu Überschneidungen kommt, wenn verschiedene Geschäftseinheiten auf dieselbe Quelle zugreifen. Anbieter scheitern auch daran, unterschiedlicher Drittquellen in eine Datenpipeline zu integrieren.

So löst Retarus die Datenprobleme seiner Kunden

Retarus bietet mehr als eine SAAS-Lösung. Mit seinem Managed Service sorgt der Enterprise-Cloud-Anbieter für eine nahezu vollständige Entlastung der IT-Abteilung. Dank professioneller Workshops zur Prozessverbesserung und der Unterstützung bei der Anbindung neuer Kunden ist der Aufwand auf Nutzerseite sehr gering und wichtige Kapazitäten werden geschont.

Intelligent Document Processing von Retarus bietet reibungslose Workflows und dank Datenerfassung via Multi-OCR-Engine mit zusätzlichem Human-In-The-Loop können viele Daten in kurzer Zeit nahezu fehlerfrei digitalisiert werden. Der gesamte Prozess entspricht zu 100 Prozent den strengsten Datenschutzanforderungen, zum Beispiel der DSGVO.

Darüber hinaus unterstützen die Retarus Cloud Services Unternehmen dabei, ihre Geschäftsprozesse effizient gestalten. Die Retarus Service Manager betreuen Kunden in allen Projektphasen persönlich. Umfassende Beratung, auf den Kunden zugeschnittene Lösungsdesigns und ein 24/7-Support in der Landessprache des Kunden gehören ebenso zum Angebot.

Wir sind für Sie da!

Sie haben Fragen, wünschen weitere Informationen oder möchten die Cloud Services von Retarus testen?
Wir sind für Sie da. Telefonisch oder per E-Mail. Gerne besuchen wir Sie auch und zeigen Ihnen unsere Ansätze vor Ort.