StormCrawler

StormCrawler ist ein Open-Source-SDK zum Erstellen verteilter Webcrawler mit Apache Storm.Das Projekt steht unter der Apache-Lizenz v2 und besteht aus einer Sammlung wiederverwendbarer Ressourcen und Komponenten, die größtenteils in Java geschrieben wurden.Das Ziel von StormCrawler ist es, Web-Crawler zu erstellen, die: skalierbar, ausfallsicher, mit geringer Latenz, einfach zu erweitern und dennoch effizient sind StormCrawler ist eine Bibliothek und eine Sammlung von Ressourcen, mit denen Entwickler ihre eigenen Crawler erstellen können.Die gute Nachricht ist, dass dies ziemlich einfach sein kann.Oft müssen Sie Storm-Crawler nur als Maven-Abhängigkeit deklarieren, Ihre eigene Topologieklasse schreiben (Tipp: Sie können ConfigurableTopology erweitern), die vom Projekt bereitgestellten Komponenten wiederverwenden und möglicherweise einige benutzerdefinierte Komponenten schreibenfür deine eigene geheime Soße.Ein bisschen an der Konfiguration arbeiten und los geht's! ... Abgesehen von den Kernkomponenten stellen wir einige externe Ressourcen zur Verfügung, die Sie in Ihrem Projekt wiederverwenden können, z. B. unsere Ausgüsse und Schrauben für ElasticSearch oder einen ParserBolt, der Apache Tika verwendetverschiedene Dokumentformate zu analysieren.StormCrawler eignet sich perfekt für Fälle, in denen die URL zum Abrufen und Parsen als Streams gesendet wird, ist jedoch auch eine geeignete Lösung für rekursive Crawls in großem Maßstab, insbesondere wenn eine geringe Latenz erforderlich ist.Das Projekt wird in der Produktion von mehreren Unternehmen eingesetzt und aktiv weiterentwickelt und gepflegt.

Webseite:

http://stormcrawler.net

Kategorien

Alternativen zu StormCrawler für alle Plattformen mit einer Lizenz

StormCrawler

Webseite:

Kategorien

Alternativen zu StormCrawler für alle Plattformen mit einer Lizenz

Heritrix

Mixnode

Apache Nutch

Scrapy

ACHE Crawler

ProxyCrawl