Hallo zusammen,
ich wollte euch das flg. Programm mitteilen. Ihr eknnt es sicherlich, dass ab einer bestimmten URL Anzahl (50000) google streikt. Mit demProgramm kann man die Sitemaps aufteilen und ggfs. auf Wunsch erweitern.
Kernfunktionalitäten
Erstellen von XML Sitemaps für Suchmaschinen
Erstellen einer .csv Datei, die für jede URL Ihrer Webseite die wichtigsten Meta Informationen enthält (die Datei kann z.B. in Excel oder LibreOffice weiterverarbeitet werden)
die Anwendung ist auf allen Systemen lauffähig, für die eine Java Laufzeitumgebung verfügbar ist (Windows, Linux, Mac OS, ...)
Optionen und Parameter
Sie können ...
verschiedene (optionale) Sitemap Parameter selbst konfigurieren (lastmod, changefreq, priority)
einen Proxy Server (HTTP oder SOCKS, mit oder ohne Authentifikation) nutzen.
einstellen ob die indizierten Seiten mit dem Präfix "www." beginnen sollen oder nicht (Duplikate werden entfernt).
einstellen ob sich die Software an noindex- und nofollow- Attribute sowie die Vorgaben von robots.txt Dateien halten soll oder nicht.
selbst definieren, als welcher Browser, bzw. Crawler (User Agent) sich die Software ausgeben soll
eine maximale Anzahl an zu sammelnden Links festlegen
selbst angeben welche Dateitypen heruntergeladen und gecrawlt werden sollen und ob Downloads (Dateien) zur Sitemap hinzufügen werden sollen
umfangreiche URL- und Inhaltsfilter definieren, um nur URLs und/oder Inhalte zu indizieren, die bestimmte Begriffe beinhalten oder nicht beinhalten
Link zum Programm und Quelle:
gnuCrawl&Map
http://www.gnuyork.org/de/gnucrawlandmap.htmlIst eine jar Datei, muss also mit Java Runtime Environment geöffnet werden.
LG
Jenni
Linkback: https://www.modified-shop.org/forum/index.php?topic=28608.0