Neuigkeiten
  • Die modified eCommerce Shopsoftware ist kostenlos, aber nicht umsonst.
    Spenden
  • Damit wir die modified eCommerce Shopsoftware auch zukünftig kostenlos anbieten können:
    Spenden
  • Thema: BingBot crawlt mit Session - bei anderen Spidern gibt es keine Probleme

    p3e

    • Experte
    • Beiträge: 2.426
    Ich stelle soeben fest, dass bei mir der BingBot bzw. msnbot Seiten mit Session aufruft. Im Index der Bing Suchmaschine werden die Links dann trotzdem ohne Session angegeben aber da scheint ja trotzdem etwas mit dem Vermeiden von Sessions bei diesem Bot nicht zu funktionieren.
    Google crawlt meine Seiten ohne Session.

    In der xtc_check_agent.inc.php sind "bing", "bingbot", "msn", "msn.com" und "msnbot" enthalten.

    In den Logdatei sieht der Aufruf folgendermaßen aus:

    Code: PHP  [Auswählen]
    msnbot-207-46-13-94.search.msn.com - - [22/Dec/2015:09:59:11 +0100] "GET /33119::1366.html?MODsid=k645dn0uc6mqv7etlofm2j37v0 HTTP/1.1" 301 910 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

    Edit: Eigentlich müsste der Shop neben dem Google Bot auch den MSN Bot erkennen und die Session vermeiden.

    Linkback: https://www.modified-shop.org/forum/index.php?topic=34084.0

    hpzeller

    • Experte
    • Beiträge: 4.129
    • Geschlecht:
    Könnte mir folgendes als Erklärung vorstellen, auch eine Suchmaschine ist zuweilen ohne ihre Kennung unterwegs und speichert die Ergebnisse, die darin enthaltenen Links können dann natürlich auch die Session ID enthalten, ruft die Suchmaschine einen solchen Link wieder mit seiner Kennung auf erhält man einen Logeintrag von diesem Bot mit Session ID.

    Gruss
    Hanspeter

    p3e

    • Experte
    • Beiträge: 2.426
    Sowas habe ich mir zuerst auch gedacht. Aber irgendwie ruft der BingBot momentan ständig die selbe Adresse aber mit diversen SessionIDs auf und wenn ich ein wenig in den Log-Dateien von Dezember stöber, finde ich den MSN Bot nie ohne Session ID.

    p3e

    • Experte
    • Beiträge: 2.426
    Nachtrag: In 99% der Fälle ruft er die /checkout_shipping.php auf. Ich habe schon die IPs überprüft. Es ist wirklich Microsoft.

    p3e

    • Experte
    • Beiträge: 2.426
    Wahrscheinlich hat hpzeller recht.
    Ich habe soeben den Useragent vom Firefox so angepasst, dass der bingbot simuliert wird und habe cookies deaktiviert. Der Shop erkennt den Useragent als Spider und gibt die Links ohne Session aus.

    Trotzdem komisch, dass alle paar Sekunden die    /checkout_shipping.php mit wechselnden Session-IDs aufgerufen wird. Ich mache mir Gedanken, ob bing das als doppelten content werten könnte.

    HaldOn

    • Fördermitglied
    • Beiträge: 552
    Zitat
    /checkout_shipping.php mit wechselnden Session-IDs aufgerufen wird. Ich mache mir Gedanken, ob bing das als doppelten content werten könnte.

    die checkout_shipping.php sollte auf noindex stehen, damit sollte es kein Problem sein

    p3e

    • Experte
    • Beiträge: 2.426
    Das scheint den BingBot aber nicht zu stören. Der besucht die Seite trotz noindex.
    Ich hatte schon extra überprüft, ob die IPs wirklich zu Microsoft gehören. Ist der Fall, also scheint es wirklich der BingBot zu sein, der sich bei diesem Shop so merkwürdig austobt. Was vergleichbares habe ich bisher bei keinem Shop gesehen. Zum Glück ist der BingBot eher unwichtig, so dass ich einfach mal abwarte, ob er sich wieder beruhigt.

    HaldOn

    • Fördermitglied
    • Beiträge: 552
    Die Antwort bezog sich auf deine Frage zum doppelten Content.

    Noindex bedeutet nur das die Seite nicht in den Index der Suma aufgenommen werden soll, crawlen darf er sie dennoch, es sei denn du hast die Datei zB. in der Robots.txt gesperrt.

    p3e

    • Experte
    • Beiträge: 2.426
    In der robot.txt steht sie auch.

    HaldOn

    • Fördermitglied
    • Beiträge: 552
    ich habe mich da falsch ausgedrückt, auch wenn sie in der robots.txt steht crawlt er sie soll sie aber nicht in den Index aufnehmen.
    Dadurch kann kein Double Content entstehen.

    Alfred

    • Experte
    • Beiträge: 2.115
    Das scheint den BingBot aber nicht zu stören. Der besucht die Seite trotz noindex.

    Hallo,

    das ist doch ein normales Verhalten. Vor dem Besuch kann man doch kein noindex sehen.
    Die  /checkout_shipping.php besucht er weil gerade ein Besucher darauf war bzw. er die IP gespeichert hat.
    Ist das der IE11 oder der Edge?

    Gruß
    24 Antworten
    9218 Aufrufe
    02. November 2009, 16:22:13 von DokuMan
    2 Antworten
    2101 Aufrufe
    29. April 2015, 17:24:43 von noRiddle (revilonetz)