Luigi

Luigi

Der Zweck von Luigi besteht darin, alle mit lang laufenden Batch-Prozessen verbundenen Installationsprobleme zu lösen.Sie möchten viele Aufgaben verketten, automatisieren und es kommt zu Fehlern.Bei diesen Aufgaben kann es sich um alles handeln, es handelt sich jedoch in der Regel um lange laufende Aufgaben wie Hadoop-Jobs, das Speichern von Daten in / aus Datenbanken, das Ausführen von Algorithmen für maschinelles Lernen oder andere Aufgaben.Es gibt andere Softwarepakete, die sich auf untergeordnete Aspekte der Datenverarbeitung konzentrieren, z. B. Hive, Pig oder Cascading.Luigi ist kein Rahmen, um diese zu ersetzen.Stattdessen hilft es Ihnen, viele Aufgaben zusammenzufügen, wobei jede Aufgabe eine Hive-Abfrage, ein Hadoop-Job in Java, ein Spark-Job in Scala oder Python, ein Python-Snippet, ein Dump einer Tabelle aus einer Datenbank oder etwas anderes sein kann.Es ist einfach, lang laufende Pipelines aufzubauen, die Tausende von Aufgaben umfassen und deren Fertigstellung Tage oder Wochen in Anspruch nimmt.Luigi kümmert sich hauptsächlich um das Workflow-Management, sodass Sie sich auf die Aufgaben selbst und ihre Abhängigkeiten konzentrieren können. Sie können so ziemlich jede Aufgabe erstellen, die Sie möchten. Luigi wird jedoch auch mit einer Toolbox aus mehreren gängigen Aufgabenvorlagen geliefert, die Sie verwendenverwenden.Es enthält Unterstützung für die Ausführung von Python-Mapreduce-Jobs in Hadoop sowie von Hive- und Pig-Jobs.Es enthält auch Dateisystemabstraktionen für HDFS und lokale Dateien, die sicherstellen, dass alle Dateisystemvorgänge atomar sind.Dies ist wichtig, da dies bedeutet, dass Ihre Datenpipeline in einem Zustand mit Teildaten nicht abstürzt.
luigi

Kategorien

Alternativen zu Luigi für Linux mit Open Source-Lizenz