Apache Nutch ist ein hochgradig erweiterbares und skalierbares Open-Source-Webcrawler-Softwareprojekt.Nutch ist vollständig in der Programmiersprache Java codiert, die Daten werden jedoch in sprachunabhängigen Formaten geschrieben.Die Architektur ist sehr modular und ermöglicht Entwicklern die Erstellung von Plug-Ins für die Analyse von Medientypen, das Abrufen, Abfragen und Clustering von Daten.Der Fetcher ("Roboter" oder "Webcrawler") wurde speziell für dieses Projekt von Grund auf neu geschrieben.
apache-nutch