Gibt es einen offiziellen webkicks.de Web-Crawler?

_DoE_ · Ungelesener Beitrag von **_DoE_** » 31.03.2011, 12:16

Letzte Nacht wurde von der Adresse 78.46.23.203 innerhalb genau 5 Stunden insgesamt 856 mal auf meine Webseite zugegriffen. Der User-Agent war "Mozilla/5.0 (compatible; webkicks-Robot +http://www.webkicks.de)".
Ist das ein offizieller Crawler? Falls ja, könntet Ihr dem bitte etwas Manieren beibringen?

Ungelesener Beitrag von **Webkicks** » 31.03.2011, 19:32

Es handelt sich um einen offieziellen Crawler, der sogar schon Manieren hat

Er hält sich zu 100% an den Robots Exclusion Standard und ruft nur Inhalte ab, die nicht für Webcrawler gesperrt sind.

Mit einer Wartezeit von 2-20 Sekunden zwischen jedem Abruf sollte zudem auch jeglicher Überlastung vorgebeugt werden. Oder sind 2 Sekunden zu gering? Gerne nehmen wir hier Anpassungen vor, sollte dies gewünscht sein.

_DoE_ · Ungelesener Beitrag von **_DoE_** » 31.03.2011, 20:39

Vielen Dank für die prompte Antwort.
Ich habe IP-Adresse und UA unmittelbar darauf vorsichtshalber 'mal gesperrt, da man über diese nicht sonderlich viel im Web erfahren konnte.

Anscheinend gehen die Vorstellungen von guten Manieren eines Web-Bots hier auseinander. Ein gutes Benehmen ist nicht nur das Berücksichtigen einer "robots.txt" sondern auch die Anzahl der Zugriffe pro IP-Adresse und das Einhalten des Robots-Meta-Tags "noarchive".

Viele Webmaster halten sich an ein ungeschriebenes Gesetz, das bei mehr als etwa 20 Zugriffen innerhalb 2 Minuten von der gleichen IP aus in Intervallen von weniger als etwa 30 Minuten Abstand von einer möglichen Attacke ausgehen und den Sünder gnadenlos verbannen.
Google ist ein sehr fleissiger Besucher meiner Webpräsenz und schafft gerade 'mal so zwischen 20 und 40 Zugriffe innerhalb 24 Stunden. Nicht einmal die aktivsten Spambots bringen es auf Eure 850 Zugriffe in 5 Stunden.

Wenn Ihr daran etwas arbeiten könntet, wäre ich Euch dankbar. Ich werde dann die Sperre wieder aufheben.

Gibt es irgendwo noch einen Hinweis, wozu die gecrawlten Seiten verwendet werden?

Wie spricht man Euren Crawler in robots.txt an?
Als "webkicks-Robot", als "http://www.webkicks.de" oder einfach als "webkicks"?

Ungelesener Beitrag von **Webkicks** » 31.03.2011, 23:24

_DoE_ hat geschrieben:Anscheinend gehen die Vorstellungen von guten Manieren eines Web-Bots hier auseinander. Ein gutes Benehmen ist nicht nur das Berücksichtigen einer "robots.txt" sondern auch die Anzahl der Zugriffe pro IP-Adresse und das Einhalten des Robots-Meta-Tags "noarchive".

"noarchive" hast Du leider falsch verstanden: Dieser Meta-Tag bedeutet nicht, dass eine Seite nicht gespidert wird, sondern das die Seite nicht als Cache-Version zugänglich gemacht wird. Bei Suchmaschinen wie Google tauchen die Seiten also dennoch in der Trefferliste auf, lediglich der "Im Cache" Link wird nicht angeboten. Es gibt auch noch "noindex", hier erscheinen die Seiten dann generell nicht in der Trefferliste von Suchmaschinen , gecrawlt werden sie aber dennoch (dabei werden die Meta-Tags ja erst eingelesen).

_DoE_ hat geschrieben:Viele Webmaster halten sich an ein ungeschriebenes Gesetz, das bei mehr als etwa 20 Zugriffen innerhalb 2 Minuten von der gleichen IP aus in Intervallen von weniger als etwa 30 Minuten Abstand von einer möglichen Attacke ausgehen und den Sünder gnadenlos verbannen.
Google ist ein sehr fleissiger Besucher meiner Webpräsenz und schafft gerade 'mal so zwischen 20 und 40 Zugriffe innerhalb 24 Stunden. Nicht einmal die aktivsten Spambots bringen es auf Eure 850 Zugriffe in 5 Stunden.

Ein solches Gesetz ist uns tatsächlich nicht bekannt und es würde auch wenig Sinn machen - große Seiten würden dadurch uncrawlbar. Allein von http://www.webkicks.de ruft der Googlebot täglich weit mehr als 10.000 Seiten ab (das sind bereits deutlich mehr als 850 Zugriffe je 5 Stunden), bei anderen Domains verzeichnen wir teilweise mehr als 100.000 Abrufe/Tag. Die Crawl-Frequenz richtet sich dabei immer stark nach der Relevanz die ein Crawler einer Seite zuordnet, nach der Aktualisierungsfrequenz der Inhalte - und natürlich nach der Anzahl an Seiten aus denen eine Präsenz besteht.

_DoE_ hat geschrieben:Gibt es irgendwo noch einen Hinweis, wozu die gecrawlten Seiten verwendet werden?

Derzeit handelt es sich noch um Testläufe, generell geht es aber darum statistische Daten (Anzahl Domains, Seiten, etc.) sowie Zusammenhänge (Linkstrukturen) im Web zu untersuchen. Die vollständigen Inhalte werden nicht von uns archiviert.

_DoE_ hat geschrieben: Wie spricht man Euren Crawler in robots.txt an?
Als "webkicks-Robot", als "http://www.webkicks.de" oder einfach als "webkicks"?

Als "webkicks-Robot", so wie er sich auch in den Access-Logs meldet. Sollte der Bot in den Regelbetrieb gehen werden wir auch noch eine ausführliche Infos-Seite hinterlegen, die in den Logs vermerkt sein wird.

_DoE_ · Ungelesener Beitrag von **_DoE_** » 02.04.2011, 19:52

Danke für die Antwort.

Webkicks hat geschrieben:[...]
"noarchive" hast Du leider falsch verstanden [...]

Neenee! Ich habe nichts falsch verstanden. Ich kenne mich in diesen Dingen bestens aus. (Schon etwas seltsam, dass man als Benutzer in deutschsprachigen Foren meistens als unwissende Null behandelt wird.)
Weil Ihr nichts über Euren Bot preisgegeben habt, konnte ich ja nicht wissen, ob Ihr an einer Suchmaschine bastelt oder an sonst einem Spider. Das ändert aber nichts an der Tatsache, dass die von mir erwähnten Punkte ausschlaggebend für gutes oder schlechtes Benehmen eines Roboters sind.

Was die Anzahl Zugriffe anbelangt:
Bei einem Chatsystem wie dem Euren, das den Chatverkehr Tausender Websites zentral verwaltet, sind die Roboterzugriffe offensichtlich entsprechend höher, und natürlich auch die zur Verfügung stehende Bandbreite. Daher wird das für Euch auch kein Problem darstellen. Trotzdem gibt es unzählige Websites, die nicht unbegrenzt Bandbreite zur Verfügung haben. Und genau darum rufen intelligente Roboter niemals die gesamte Webpräsenz in einem Besuch ab sondern in Intervallen. Die Roboter werden auf diese Weise ja nicht ausgebremst. Sie besuchen in der Zwischenzeit nur andere Sites und kommen später wieder zurück.
Spambots halten sich hingegen selten daran und sind daher auch leicht zu identifizieren. Ihr Ziel ist es, möglichst viele Seiten auf einmal zu scannen, weil sie möglicherweise keinen zweiten Versuch mehr haben werden.
Beim webkicks-Robot bin ich zuerst auch aus genau diesem Grund davon ausgegangen, er wäre ein Spambot mit gefälschter Kennung.

Ausserdem:
Kein Webmaster wird den Zugriff für einen Roboter zulassen, wenn er nicht genau weiss, welche Absichten hinter seinem Besuch stecken.
Die meisten Bots verweisen (besonders in ihrer Testphase) im UA auf eine Hinweisseite, wo nicht nur der Zweck detailliert beschrieben ist sondern auch von welchen IPs aus sie arbeiten und wie ihre Kennung lautet. Und wenn dort noch ein Kontaktformular zu finden ist, dann schafft das Vertrauen. Umso mehr, je mehr Informationen auf jener Seite aufgeführt sind. Das sorgt für Transparenz und die fehlt hier leider.

Nun, ich kann und will Euch gar keine Vorschriften machen, wie sich Euer Roboter zu verhalten hat und was Ihr kommunizieren solltet. Ich wollte nur einen Tipp geben, wie ihr vermeiden könnt, dass er von einer Menge Websites ausgesperrt wird.

Du hast gerade den perfekten Zeitpunkt erwischt:

Gibt es einen offiziellen webkicks.de Web-Crawler?

Gibt es einen offiziellen webkicks.de Web-Crawler?

Re: Gibt es einen offiziellen webkicks.de Web-Crawler?

Re: Gibt es einen offiziellen webkicks.de Web-Crawler?

Re: Gibt es einen offiziellen webkicks.de Web-Crawler?

Re: Gibt es einen offiziellen webkicks.de Web-Crawler?

Wer ist online?