Referral Spam und Ghost Referrer in Google Analytics

Endlich eine saubere Statistik

In meinem ersten Tutorial Google Analytics Spam blocken (serverside) ist beschrieben, wie es serverseitig funktioniert. Jedoch gehen nicht alle Zugriffe (Ghost Hits, Bots und Crawler) auf die Seite, um einen Hit zu verursachen. Anscheinend wird bei darodar.com oder ilovevitaly.com die eigene Tracking-ID eingebunden. Was das bringen soll - ich habs noch nicht rausgefunden. Die schnellste Möglichkeit wäre eine neue Tracking-Property anzulegen, die am Ende -2 oder -3 hat. Laut meinen Recherchen sind nur IDs mit XX-XXXXXXXX-1 am Ende betroffen.

Wer jedoch nicht seine Trackingdaten der Property verlieren will, kann es auch eleganter lösen.

Die Lösung: Filter in Google Analytics

Somit werden die unerwünschten Referrer einfach aus der Statistik ausgeschlossen. Leider kann dies nicht rückwirkend angewandt werden. Erst wenn der Filter aktiv ist, werden die Daten sauber getracked.

Im ersten Schritt in Google Analytics einloggen, die Statistik der betroffenen Seite aufrufen und oben auf Verwalten klicken. Dort unter Datenansicht den Punkt "Einstellungen der Datenansicht" anklicken.

Verwaltung der Property in Google Analytics
Einstellungen der Datenansicht

Hier muss die Checkbox bei "Bots herausfiltern" gesetzt werden. Somit werden schon mal die von Google bekannten Bots ausgeschlossen.

Einstellungen der Datenansicht
Bots herausfiltern aktivieren und übernehmen

Nun gehts wieder einen Schritt zurück und wir gehen auf die Filter der Datenansicht. Einfach einen neuen Filter anlegen und dann sollte diese Maske erscheinen:

Filtertyp "Benutzerdefinierend"
Ein benutzerdefinierender Filter auf das Feld "Verweis"

Diesem Filter habe ich jetzt die Bezeichnung "spam" gegeben, aber das ist nicht ausschlaggebend ;-). Als Filtertyp muss "Benutzerdefinierend" ausgewählt und anschließend der Radio-Button "Ausschließen" aktiviert werden mit dem Filterfeld "Verweis". Dort kommt jetzt eine Zeile Regex rein.

Jetzt gehts ans Eingemachte. Mit dieser eleganten Regular Expression können diverse Matches abgedeckt werden. Somit muss nicht für jede Domain ein einzelner Filter angelegt werden und es ist schnell aktualisierbar.

Update:
Da Google das Feld auf 255 Zeichen limitiert, müssen wir es auf mehrere Filter splitten. Hier eine aktualisierte Fassung anhand unserer Analytics. Ich habe die Filter dann einfach mit spam #1 und spam #2 gekennzeichnet. Schauen wir mal wie lang Google braucht um hier wirklich Abhilfe zu schaffen.

(?:([^. ]+)\.)?(?:([^.]+)\.)?(hulfingtonpost|bestwebsitesawards|startpage|econom|darodar|ilovevitaly|buttons-for-website|semalt|makemoneyonline|priceg|blackhatworth|social-buttons|javod)\.(com?|de|net|info)
(?:([^. ]+)\.)?(?:([^.]+)\.)?(theguardlan|best-seo-offer|buttons-for-your-website|buy-cheap-online|Get-Free-Traffic-Now|forum69|free-share-buttons)\.(com?|de|net|info)

Erfahrene Entwickler sehen bestimmt auf den ersten Blick, was hier passiert:

(?:([^. ]+)\.)?(?:([^.]+)\.)?
Dieser Part ist für zwei optionale Subdomains, die z.B. bei darodar verwendet werden.

(econom|darodar|ilovevitaly|buttons-for-website|semalt|makemoneyonline|priceg)
Hier der Domainname, einfach und schnell pflegbar.

\.(com?|de|net)
Falls einer der Kandidaten auf die Idee kommt, statt .com eine .co oder .net oooder .de zu verwenden. Einer der Spam-URLs hat .co und .com in petto. m? steht hierbei für optional, greift also bei .co und .com.

Falls es Verbesserungsvorschläge dafür gibt, her damit ;) Unten habe ich noch zwei Links aufgeführt, die sehr hilfreich zum ausprobieren von regulären Ausdrücken sind.

Related Links:

von Rolf Schupfinger

Zurück

Einen Kommentar schreiben

Kommentar von Carsten |

Hut ab und vielen Dank.
Das Dashboard hat jetzt den Hinweis gegeben, dass möglicherweise nicht alle Daten angezeigt werden. Im Moment ist darodar aber noch angezeigt. Scheinbar werden nur zukünftige Besuche rausgefiltert. Auf jeden Fall super Hilfe, Danke.

Kommentar von Alexander |

Hallo Rolf,

danke sehr hilfreich. Ich habe das zwar deine korrekt Regex nicht über die Filterüberpüfung in der Datenansicht überprüfen können, aber in meinen Verweisen über einen gefilterten Bericht deinen Filter überprüft. Sehr hilfreich
Beste Grüße
Alexander

Kommentar von Andreas S. |

Vielen Dank für die Anleitung Rolf, habe mich schon seit Tagen mit dem Thema beschäftigt. Befürchte nämlich, dass durch diese Bots und hohe Bounce Rate die Rankings beeinflusst werden könnten. Hast du hierzu irgendwelche Erfahrungswerte?

Beste Grüße,

Andreas

Antwort von Rolf Schupfinger

Das mit der Bounce Rate ist ein interesssanter Ansatz, aber was haben die davon. Es würde ja wenn dann nur das Ranking der betroffenen Seite verschlechtern wenn die Bounce Rate hoch ist.

Heute habe ich einen neuen Referrer entdeckt: blackhatworth.com - ist jetzt auch im Codebeispiel. (leitet auf ilovevitaly)

Kommentar von Bondt |

Sehr guter Artikel, du! Vielen Dank dafür!

Kommentar von Fabian |

Danke für den tollen und gutgeschriebenen Bericht. Bei mir erscheint allerdings wenn ich auf Filterprüfung gehe der Hinweis "Mit diesem Filter haben sich Ihre Daten nicht geändert. Entweder ist die Filterkonfiguration fehlerhaft oder es liegen nicht genügend gefilterte Daten vor." Dabei machen ilovevitaly und blackhatworth bei mir aktuell fast 60% des Traffics aus, alleine heute 26 Aufrufe. Eine Idee woran das liegen könnte?

LG

Antwort von Rolf Schupfinger

Ja die Filterung funktioniert erst ab dem Zeitpunkt nach dem der Filter aktiv ist. Die historischen Daten sind davon nicht betroffen.
Eine Idee, leider nicht ;-) aber die machen das nicht zum Spass, da bin ich mir sicher.

Kommentar von Mark |

Hallo,
sehr hilfreich und einfach gemacht, danke.
Bei mir finde ich noch diese hostnames: message53773348.cenokos.ru / oder: co.lumb.co

muss ich das .ru weglassen ? oder das co. vor dem lumb ?

Noch eine Frage, ich weiss nicht ob diese hier angebracht ist: In meinem Verhalten/Website Content sind über 50 Seiten mit diesem Muster:

/virtdedc2dc0/index.htm oder: /virt0f593275/index.htm oder: /virtb877b165/partner am bau.htm

verschwinden diese Indexierten seiten mit deinem Beispiel Filter?

vielen Dank

Antwort von Rolf Schupfinger

Hi Mark,

du musst nur lump|cenokos| mit eintragen, der Rest passiert dann allein. Die Aufrufe auf diese Unterseiten werden dann jedoch nicht verschwinden.

Grüße
Rolf

Kommentar von David |

Vielen lieben Dank! Habe lange nach so was gesucht. Hasse es, dass diese Idioten immer die Statistik kaputt machen. Bin mal gespannt wie es klappt ;)

Gute erklärt!

Antwort von Rolf Schupfinger

Aber drauf achten das nur die Stats "ab heute" davon betroffen sind :)

Kommentar von Philipp |

Super Beitrag. Vielan Dank für die schnelle und einfache Hilfe!

Kommentar von Karsten Besserdich |

Vielen Dank für deinen ausführlichen und wirklich sehr hilfreichen Post. Google Analytics ist schon ein Thema für sich :-)

Kommentar von Marco |

Das Problem mit den Bots haben wir schon seit längerer Zeit auf unserer Seite. Zuletzt nahm der Spam jedoch massiv zu... Grund genug, um nach einer Lösung zu suchen. Deine kleine Anleitung dazu funktioniert bisher übrigens hervorragend - danke dafür!

Kommentar von Miri |

Hallo, vielen Dank!
Das ist wirklich eine große Hilfe, wenn man nicht immer separate Filter anlegen muss!

Ein Teil der Spammer zielen - soweit ich weiß - darauf ab, dass die Website Betreiber nach dem Betrachten ihrer Statistik auf diese Seiten gehen und sich einen Cookie abholen - denn dort liegen dann oft Affiliate-Geschichten drauf.

Blöde Sache sowas.....
Viele Grüße

Mirjam

Kommentar von Henry |

Hallo Rolf,
auch von mir ein herzliches Dankeschön für Deinen Beitrag! Ich habe die Filteransicht entsprechend angepasst und für die bereits erhobenen Daten ein Segment hinzugefügt. Trotzdem werden semalt.semalt.com und buttons-for-website.com immernoch angezeigt. Hast Du spontan eine Idee warum oder bin ich der enizige mit diesem Problem?

Gruß
Henry

Antwort von Rolf Schupfinger

Also die Daten aktualisieren sich nicht in die Vergangenheit. Der Filter greift quasi nur für die neuen Stats und Hits die generiert werden :)

Kommentar von Manuel |

Danke für diese Lösung. Wurde langsam nervig immer einen einzelnen Filter anzulegen

Kommentar von siebenkilopaket |

Hallo Rolf,

vielen Dank für diese super verständliche Anleitung! Du hast mir sehr geholfen.

Herzliche Grüße und schöne Feiertage!
Dani

Kommentar von Leon J. |

Hallo Ralf,

vielen Dank für die tolle Anleitung, ich habe erst jetzt gemerkt wie viel Referral Traffic ich in der Auswertung hatte.

Eine Sache ist mir aufgefallen und zwar der Großteil des Referral Spams hat eine Absprungrate von 100% und eine Durschnittl. Sitzungsdauer von 00:00:00.

Ich würde gerne einen Filter setzen der mir solche Besucher einfach ausschließt, ich glaub das würde auch vielen Anderen helfen.

Hast du da eine Idee wie ich das machen könnte?

Vielen Dank,

Schöne Grüße,

Leon

Kommentar von Sebo |

Hallo,

habe deine Anleitung probiert umzusetzen. Klingt alles plausibel, aber bei mir funktioniert das nicht richtig. Habe bis zu 70 Sitzungen von social-buttons.com und wollte diese ausschließen. Habe es auch bei deinem Spamfilter ergänzt. Jedoch sagt die Filterprüfung immer noch, dass sich nichts ändert....

Habe auch schon probiert die Domain alleine auszuschließen, mit dem selben Resultat.

Weißt du wo ich sonst noch ansetzen kann?

Danke!

Antwort von Rolf Schupfinger

Du hast nach dem erstellen des Filters ein paar Tage gewartet und diesen Bereich im Anschluss analysiert? (Der Filter greift nicht in die Vergangenheit)

Kommentar von Friederike |

Herzlichen Dank für deinen Beitrag. Eine Frage: Sollte ich in den Einstellungen der "Hauptdatenansicht" den Haken für Bots und Spiders setzen oder wirklich nur in der botfiltered Datenanischt? Lieben Dank für dein Feedback.

Antwort von Rolf Schupfinger

Bots und Spiders kann ruhig aktiviert werden :) schadet ja nicht die von Google gelisteten Bots ebenfalls auszuschließen.

Kommentar von Christian |

Der Zweck dieser Art des Spams ist eigentlich genauso wie bei jeder anderen auch. Die Spammer versuchen Leute auf eine bestimmte Seite zu locken. Sei es aus Affiliate Gründen, um irgendwelche Schadsoftware unterzujubeln oder auf irgendein Angebot aufmerksam zu machen.

Das Ziel dieser Maßnhamen sind schlichtweg die Seitenbetreiber, die neugierig gemacht werden sollen - alla: "'Wer verlinkt mich denn da und liefert mir Besucher?". Das die Besucher nur Google Analytics vorgegaukelt werden, ahnt der Seitenbetreiber zunächst nicht. Ich glaube wir sind alle selbst schon einmal darauf reingefallen und haben semalt.com etc. in die Adresszeile kopiert, also funktionierts.

Deine Lösungen funktionieren. Habe dies auch schon so praktiziert.
Viele Grüße,
Christian

Antwort von Rolf Schupfinger

Ja nur frage ich mich persönlich ob dieses eine Promille was dort weiter etwas angklickt irgendwie hilfreich ist? Die Absprungrate bei semalt und Konsorten ist ja riesig. Außer es werden Affiliate-Banner geschalten.

Kommentar von Sebastian |

Besten Dank für den Artikel. Besonders, dass auch der Regex erklärt wurde, hat mir gefallen.

Ich hatte auf Grundlage dieses Artikels angefangen den Spam über die Filterfunktion auszuschließen. In dem Regex habe ich sämtliche mir bekannten Spam-Seiten eingefügt. Leider lassen sich pro Filter nur 255 Zeichen unterbringen, so dass ich 3 Filter anlegen musste. Das stellt kein Problem dar und es greifen doch alle drei Filter, oder?

Zu der Funktion "Filter überprüfen" gab es ja schon ein paar Fragen, die stets damit beantwortet wurde, dass die Daten erst für die Zukunft ausgefiltert werden. Das ist korrekt, allerdings steht bei Analytics geschrieben, dass der Filter auf die Daten der letzten 7 Tage angewendet wird, um Änderungen mit dem angelegten Filter herauszustellen. Also müssten doch eigentlich Änderungen angezeigt werden, wenn in diesem Zeitraum Spam aufgetreten ist. Leider war das bei mir, wie wohl bei vielen andern auch, nicht der Fall. Kann man das ignorieren und sich trotzdem auf den Filter verlassen? Wäre sonst sehr viel Arbeit umsonst, die Filter für alle betreuten Seiten in Analytics anzulegen.

Danke für die Hilfe!

Antwort von Rolf Schupfinger

Ich kann nur aus meiner Erfahrung sprechen und in meinem GA-Account waren die ganzen "Störenfriede" weg und nicht mehr gelistet. Die alten Daten habe ich nicht mehr überprüft. Einfach mal ein paar Tage beobachten, aber viel mehr denke ich kann man nicht machen ;-)

Kommentar von Friederike |

Hallo Rolf,

herzlichen Dank für die tolle Erklärung. Bei mir ist das Filtermuster zu lang geworden (mehr als 255 Zeichen dürfen nicht genutzt werden), daher habe ich einen zweiten Filter eingerichtet. Wäre es dir recht, wenn wir hier gemeinsam die bekannten Referrer-"Seiten" sammeln? Falls ja, ich habe einige neue dazu bekommen, die ich vorher noch nicht kannte. Dann würde ich das hier einstellen oder dir zusenden, wie du magst.

Beste Grüße,

Friederike

Antwort von Rolf Schupfinger

Einfach hier rein, dann Update ich den Post :) Danke!

089 4161 00800
shout@revision6.de

Wir sind stets für Ihre Fragen offen. Rufen Sie uns jetzt an!

089 4161 00800
shout@revision6.de

Cookies erleichtern die Bereitstellung unserer Dienste. Mit der Nutzung unserer Dienste erklären Sie sich damit einverstanden, dass wir Cookies verwenden. Weiterlesen …