Apache Nutch

Apache Nutch

Apache Nutch ist ein hochgradig erweiterbares und skalierbares Open-Source-Webcrawler-Softwareprojekt.Nutch ist vollständig in der Programmiersprache Java codiert, die Daten werden jedoch in sprachunabhängigen Formaten geschrieben.Die Architektur ist sehr modular und ermöglicht Entwicklern die Erstellung von Plug-Ins für die Analyse von Medientypen, das Abrufen, Abfragen und Clustering von Daten.Der Fetcher ("Roboter" oder "Webcrawler") wurde speziell für dieses Projekt von Grund auf neu geschrieben.

Kategorien

Alternativen zu Apache Nutch für BSD mit kostenloser Lizenz