Neuigkeiten
  • Die modified eCommerce Shopsoftware ist kostenlos, aber nicht umsonst.
    Spenden
  • Damit wir die modified eCommerce Shopsoftware auch zukünftig kostenlos anbieten können:
    Spenden
  • Thema: Google Problem mit Session IDs

    demoncleaner

    • Fördermitglied
    • Beiträge: 482
    Google Problem mit Session IDs
    am: 23. Januar 2019, 00:18:01
    Nabend. Ich hoffe mir kann jemand bei diesem Problem helfen.

    Ich habe ein massives Problem mit den Sessions IDs in der URL.
    Aus welchem Grund auch immer findet google tausende URLs mit Session ID hinten dran.

    Ich verstehe nicht wieso das passiert. Im Backend ist eingestellt dass Spider Sessions vermieden werden sollen.

    Die Seite liegt bei Allinkl und in der htaccess ist

    Code: PHP  [Auswählen]
    php_flag session.use_trans_sid off

    eingestellt.

    Ich habe in der Google Search Konsole bei URL-Paramter eingestellt, dass MODsid keinen Einfluss den Seiteninhalt hat. Falls das eine Rolle spielt.

    Auf der Seite selber sind natürlich keine Session IDs hardkodiert.

    Hat jemand eine Idee wie google an die Session IDs kommt?

    Wenn ich die Seite testweise crawle werden manche Seiten direkt mit Session ID gecrawlt und manche nicht. Alles super seltsam finde ich.

    Im Wiki steht hier: https://www.modified-shop.org/wiki/Session-ID_wird_an_jeden_Link_angeh%C3%A4ngt

    Allerdings die o.g. Zeile ein bisschen anders

    Code: PHP  [Auswählen]
    php_flag session.use_trans_sid 0

    Ich nehme mal an es sollte beides gehen? Scheint aber in meinem Fall wie gesagt nichts zu funktionieren.

    Linkback: https://www.modified-shop.org/forum/index.php?topic=39937.0

    web-looks

    • Mitglied
    • Beiträge: 136
    Re: Google Problem mit Session IDs
    Antwort #1 am: 23. Januar 2019, 04:25:57
    Ich nehme mal an, dass Google von Dir auch Seiten im Index hat, wo keine Session ID dran hängt.

    Du kannst Folgendes probieren, dabei wird der Meta Tag "robots" auf noindex gesetzt, wenn eine Session ID in der URL steht.

    /includes/modules/metatags.php

    Suchen nach:

    Code: PHP  [Auswählen]
      if ($noIndexUnimportant && !in_array(basename($PHP_SELF),$pagesToShow)) {
        $meta_robots = 'noindex, nofollow, noodp';
      }
     

    Danach einfügen:

    Code: PHP  [Auswählen]
      // set noindex if session id appears in url
      if (!empty($_GET[session_name()])) {
        $meta_robots = 'noindex, nofollow, noodp';
      }

    demoncleaner

    • Fördermitglied
    • Beiträge: 482
    Re: Google Problem mit Session IDs
    Antwort #2 am: 23. Januar 2019, 14:50:41
    Danke web-looks. Das klingt erstmal nicht übel. Ich frage mich nur, ob das nicht zur Folge haben könnte, dass eben Seiten die google eigentlich sehr wohl indexieren sollte, nun nicht indexiert werden, weil aus irgendeinem Grund die Session ID mit dran klebt. Das wäre natürlich fatal.

    Alfred

    • Experte
    • Beiträge: 2.115
    Re: Google Problem mit Session IDs
    Antwort #3 am: 23. Januar 2019, 15:12:46
    Deshalb sollte das Augenmerk auf der Vermeidung der Sessionid liegen.

    demoncleaner

    • Fördermitglied
    • Beiträge: 482
    Re: Google Problem mit Session IDs
    Antwort #4 am: 23. Januar 2019, 15:46:54
    Äh ja. Aber genau das war ja meine Frage. Ich verstehe nicht wieso Google weiterhin zig URLs "findet" mit Session ID, wenn ich doch alles (scheinbar) dafür getan habe, damit google überhaupt nicht an die Session ID kommt.

    Meine Frage war ja, wieso crawlt google überhaupt noch etwas mit Session ID?

    Und ist es nicht so, dass selbst wenn man es irgendwie schafft das zu vermeiden, ist die Session ID nicht beim ersten Besuch dann trotzdem mit dabei und das wäre ja dann schon eine URL zu viel. Für google ist eine URL mit Session ID ja nicht die selbe wie ohne Session ID. Ich hätte das irgendwie ganz gerne sauber.

    Cookies statt Sessions zu verwenden (darüber gibt es diesen Beitrag: https://www.modified-shop.org/forum/index.php?topic=10332.0)  ist natürlich auch eine Option, aber dann den Kunden erstmal von der Kaufmöglichkeit auszuschließen ist natürlich auch nicht so schön.

    Alfred

    • Experte
    • Beiträge: 2.115
    Re: Google Problem mit Session IDs
    Antwort #5 am: 23. Januar 2019, 17:19:17
    Das heißt ja nicht das alles richtig eingestellt ist.
    Google kommt zur URL mit der Sessionid weil die Google sieht und z.B. keine Alternative per canonical bekommt oder ... Um welche Domain geht es?

    web-looks

    • Mitglied
    • Beiträge: 136
    Re: Google Problem mit Session IDs
    Antwort #6 am: 23. Januar 2019, 17:44:38
    Zu Beginn meiner Antwort hatte ich ja angemerkt, dass ich davon ausgehe, dass Google sowohl Seiten mit Session ID, als auch ohne im Index hat. Das kommt immer wieder vor. Ein einfacher Grund kann z.B. sein, wenn jemand Deine Seite verlinkt und dabei die Session ID mitkopiert.

    Wenn Du jetzt die Seiten mit Session Ids auf noindex setzt, sind immer noch Seiten im Google Index vorhanden. Und gecrawlt wird die noindex Seite auch, also kann Google weitere Links auf dieser Seite finden und verfolgen.

    Die Session Vermeidung bei Bots funktioniert im modified Shop eigentlich ganz gut. Kannst Du mit einem User Agent Switcher testen.

    Jedenfalls sollte mein Vorschlag helfen, ist schon erprobt. Wenn Du eine Sitemap.xml hast, brauchst Du Dir auch keine Sorgen machen, dass keine Seite mehr im Index auftaucht.

    Timm

    • Fördermitglied
    • Beiträge: 6.257
    Re: Google Problem mit Session IDs
    Antwort #7 am: 23. Januar 2019, 18:57:00
    @web-looks

    Wäre es nicht sinnvoller deinen Code
    Code: PHP  [Auswählen]
    // set noindex if session id appears in url
      if (!empty($_GET[session_name()])) {
        $meta_robots = 'noindex, nofollow, noodp';
      }

    so zu ändern

    Code: PHP  [Auswählen]
    // set noindex if session id appears in url
      if (!empty($_GET[session_name()])) {
        $meta_robots = 'noindex, follow';
      }
    ?

    Wenn man es genau nimmt, würde er doch dann jeder Seite mit Session hinten dran nicht folgen, was der Googlebot doch aber soll. Vor allem, wenn die erste Seite auch für den Bot eine Session ID hinten dran hat, weil er nicht als  bekannter Bot erkannt wird und das Spider Session vermeiden nicht greift. Gibt ja genügend Suchmaschinen, die nicht als Suchmaschine erkannt werden, wie man in "Wer ist online" sehen kann.

    Zumindest hab ich das so für meine Filter gemacht siehe Fehler des Canonical bei paginierten Seiten

    Gruß Timm (von quasi nebenan, wie ich grad gesehen hab)

    web-looks

    • Mitglied
    • Beiträge: 136
    Re: Google Problem mit Session IDs
    Antwort #8 am: 23. Januar 2019, 19:58:59
    @Timm: Ja, das ist gar nicht so weit, sofern die Straßen frei sind :-D

    Da hast Du gut aufgepasst! :thumbs: Das hatte ich beim Kopieren übersehen. Leider kann ich meinen ersten Post jetzt nicht mehr überarbeiten. Deshalb hier nochmal.

    Dann fassen wir das auch mal mit $noIndexUnimportant zusammen, so wie Du es bei Deinen Filtern gemacht hast. Alternativ kann man mit "else if" arbeiten, wenn man andere Werte für meta robots haben möchte.

    /includes/modules/metatags.php

    Suchen nach:

    Code: PHP  [Auswählen]
      if ($noIndexUnimportant && !in_array(basename($PHP_SELF),$pagesToShow)) {
        $meta_robots = 'noindex, nofollow, noodp';
      }

    Ersetzen mit:

    Code: PHP  [Auswählen]
      if ( ($noIndexUnimportant && !in_array(basename($PHP_SELF), $pagesToShow)) || !empty($_GET[session_name()])) {
        $meta_robots = 'noindex, follow';
      }

    demoncleaner

    • Fördermitglied
    • Beiträge: 482
    Re: Google Problem mit Session IDs
    Antwort #9 am: 23. Januar 2019, 23:19:26
    @ web-looks

    Zitat
    Ein einfacher Grund kann z.B. sein, wenn jemand Deine Seite verlinkt und dabei die Session ID mitkopiert.

    Das hast du prinzipiell natürlich recht und das kann natürlich mal passieren dass irgendwo jemand mit MODsid verlinkt aber ich hab 100erte von Seiten mit Session ID in der Search Console. Das kann es also nicht sein. Und wenn ich die Seite testweise crawle spukt er mir direkt zig URLs mit Session ID aus. Immer die gleiche wohlgemerkt je Crawlinvorgang.

    Es sind natürlich nicht NUR Seiten mit MODsid indexiert aber eben einige. Und ich frage mich wieso das passieren kann. Da ich aus meiner Sicht alles dagegen getan habe was man tun kann, hab ich mich gefragt ob ich evtl. was übersehen habe. Oder es liegt doch irgendwie am Server, dass die Funktion Spider Sessions vermeiden bei mir nicht zieht.

    Eure Ergänzung in der metatags.php finde ich an sich gut. Mache mir nur trotzdem Sorgen, dass dann einige Seiten irgendwie durchs Raster fallen.  Ich will ja, dass wenn google auf einer wichtigen Seite ist, diese auch indexiert wird und das nicht erst wenn google zufällig nochmal auf der Seite ist und dann keine Session ID hinten dran hängt. Vielleicht stell ich mir das auch falsch vor, aber das ist doch irgendwie alles nicht so wirklich das gelbe vom Ei oder? Die Tatsache alleine dass ich eine sitemap.xml in der alle Links korrekt aufgelistet sind habe ändert ja auch nichts daran, dass google URLs crawlt die es so gar nicht geben sollte.

    Ich verstehe auch nicht so ganz, wieso du auf der einen Seite sagts, dass die Session-Vermeidung des Shops gut funktioniert und auf der anderen Seite ist die genannte Methode eine erprobte. Die wäre doch gar nicht nötig wenn die Session-Vermeidung gut funktionieren würde. Missverstehe ich das?

    Vielen Dank auf jeden Fall für eure rege Anteilnahme an meinem Problem ;-)

    web-looks

    • Mitglied
    • Beiträge: 136
    Re: Google Problem mit Session IDs
    Antwort #10 am: 24. Januar 2019, 06:55:00
    Den genauen Grund für die hohe Anzahl kann ich Dir leider auch nicht nennen. Ich habe es halt schon öfters beobachtet und daher die Änderung an der metatags.php vorgenommen. Neben Google gibt es ja auch noch andere Suchmaschinen, deswegen halte ich die Anpassung generell für wichtig.

    Da wir Deine Seite nicht kennen, können wir leider auch nix testen. Unter stable.modified-shop.org wird der Googlebot jedenfalls korrekt erkannt und sogar umgeleitet, wenn er mit einer Session ID reinkommt.

    Für die Indexierung nutzt Google normalerweise "Googlebot" im User Agent. Es gibt noch andere für Adsense, Google API, ... Was Du noch probieren könntest, wäre die Liste der Crawler zu erweitern.

    /inc/xtc_check_agent.inc.php

    Liste erweitern mit:

    Code: PHP  [Auswählen]
    "-google",

    Timm

    • Fördermitglied
    • Beiträge: 6.257
    Re: Google Problem mit Session IDs
    Antwort #11 am: 24. Januar 2019, 10:47:32
    Wird denn an jeden Link im Shop die Session angehangen, oder verschwindet die nach dem ersten Klick?

    Wo hast du denn die Seite testweise gecrawlt? Ich find die Funktion gar nicht in der search Konsole, würde das gern aber auch mal testen.

    Gruß Timm

    demoncleaner

    • Fördermitglied
    • Beiträge: 482
    Re: Google Problem mit Session IDs
    Antwort #12 am: 24. Januar 2019, 10:53:31
    @ web-looks

    ok, ich habe das mal ergänzt und würde auch die von dir beschriebene Anpassung in der metatags.php vornehmen. Ich möchte nur gerne verstehen, wieso das unbedenklich ist google zu sagen, dass die Seite nicht indexiert werden soll, wenn eine Session ID dran hängt ohne die Ursache zu kenne wann und wieso eine Session ID an der URL hängt. Ich bin mir nicht sicher ob eine saubere sitemap.xml ausreicht um das abzufangen.

    @ FräuleinGarn

    Ich habe mit ScreamingFrog gecrawlt.

    Timm

    • Fördermitglied
    • Beiträge: 6.257
    Re: Google Problem mit Session IDs
    Antwort #13 am: 24. Januar 2019, 11:09:16
    Danke für den Hinweis zu sreamingfrog.

    Wird denn an jeden Link im Shop die Session angehangen, oder verschwindet die nach dem ersten Klick?

    Im Normalfall hat man keine Ergebnisse mit Sessions in den google Ergebnissen. Also muss bei dir was verkehrt laufen. Deshalb ja die Frage, ob das bei dir immer angehängt wird. Und die Frage nach einem Shoplink durch Alfred ist berechtigt. So kann man da ja nur raten. Geht ja auch per PM.

    Ich hatte zb mehr als 10k überwachte URLs in der Search Konsole und viel zu viele Ergebnisse in den Google Ergebnissen aufgrund meiner Artikeleigenschaften und der dazugehörigen Auswahlfilter. Das multipliziert sich ja durch jede weitere Filtereigenschaft. Nach dem ändern der metatags.php bin ich nun wieder auf meinen echten 500-600 Seiten im Index. Und keine url mehr mit ?filter hinten dran dabei.

    demoncleaner

    • Fördermitglied
    • Beiträge: 482
    Re: Google Problem mit Session IDs
    Antwort #14 am: 24. Januar 2019, 11:16:21
    So ist es. Session ist beim ersten Klick in der URL. Dann weg. Wie es sein soll.
    Ich hab jetzt mal die metatags.php und die xtc_check_agent.inc.php angepasst. Ich bekomme aber immer noch URLs mit Session ID beim Test Crawling. Kann natürlich sein, dass - warum auch immer - mit dem Crawling Tool etwas nicht stimmt. Ich muss dann mal beobachten was bei Google zukünftig mit den Session-URLs passiert.
    Shop Hosting
    5 Antworten
    3896 Aufrufe
    16. Oktober 2012, 18:20:21 von piru
    10 Antworten
    7114 Aufrufe
    17. Mai 2012, 16:08:33 von karl
    8 Antworten
    5559 Aufrufe
    19. April 2013, 13:19:00 von NicoDeluxe
    1 Antworten
    2688 Aufrufe
    22. September 2010, 17:06:03 von Tomcraft
               
    anything