Referral Spam und Ghost Referrer in Google Analytics

Endlich eine saubere Statistik

Jan 8, 2015

In meinem ersten Tutorial Google Analytics Spam blocken (serverside) ist beschrieben, wie es serverseitig funktioniert. Jedoch gehen nicht alle Zugriffe (Ghost Hits, Bots und Crawler) auf die Seite, um einen Hit zu verursachen. Anscheinend wird bei darodar.com oder ilovevitaly.com die eigene Tracking-ID eingebunden. Was das bringen soll - ich habs noch nicht rausgefunden. Die schnellste Möglichkeit wäre eine neue Tracking-Property anzulegen, die am Ende -2 oder -3 hat. Laut meinen Recherchen sind nur IDs mit XX-XXXXXXXX-1 am Ende betroffen.

Wer jedoch nicht seine Trackingdaten der Property verlieren will, kann es auch eleganter lösen.

Die Lösung: Filter in Google Analytics

Somit werden die unerwünschten Referrer einfach aus der Statistik ausgeschlossen. Leider kann dies nicht rückwirkend angewandt werden. Erst wenn der Filter aktiv ist, werden die Daten sauber getracked.

Im ersten Schritt in Google Analytics einloggen, die Statistik der betroffenen Seite aufrufen und oben auf Verwalten klicken. Dort unter Datenansicht den Punkt "Einstellungen der Datenansicht" anklicken.

Hier muss die Checkbox bei "Bots herausfiltern" gesetzt werden. Somit werden schon mal die von Google bekannten Bots ausgeschlossen.

Nun gehts wieder einen Schritt zurück und wir gehen auf die Filter der Datenansicht. Einfach einen neuen Filter anlegen und dann sollte diese Maske erscheinen:

Diesem Filter habe ich jetzt die Bezeichnung "spam" gegeben, aber das ist nicht ausschlaggebend ;-). Als Filtertyp muss "Benutzerdefinierend" ausgewählt und anschließend der Radio-Button "Ausschließen" aktiviert werden mit dem Filterfeld "Verweis". Dort kommt jetzt eine Zeile Regex rein.

Jetzt gehts ans Eingemachte. Mit dieser eleganten Regular Expression können diverse Matches abgedeckt werden. Somit muss nicht für jede Domain ein einzelner Filter angelegt werden und es ist schnell aktualisierbar.

Update:

Da Google das Feld auf 255 Zeichen limitiert, müssen wir es auf mehrere Filter splitten. Hier eine aktualisierte Fassung anhand unserer Analytics. Ich habe die Filter dann einfach mit spam #1 und spam #2 gekennzeichnet. Schauen wir mal wie lang Google braucht um hier wirklich Abhilfe zu schaffen.

Erfahrene Entwickler sehen bestimmt auf den ersten Blick, was hier passiert:

(?:([^. ]+)\.)?(?:([^.]+)\.)?

Dieser Part ist für zwei optionale Subdomains, die z.B. bei darodar verwendet werden.

(econom|darodar|ilovevitaly|buttons-for-website|semalt|makemoneyonline|priceg)

Hier der Domainname, einfach und schnell pflegbar.

\.(com?|de|net)

Falls einer der Kandidaten auf die Idee kommt, statt .com eine .co oder .net oooder .de zu verwenden. Einer der Spam-URLs hat .co und .com in petto. m? steht hierbei für optional, greift also bei .co und .com.

Falls es Verbesserungsvorschläge dafür gibt, her damit ;) Unten habe ich noch zwei Links aufgeführt, die sehr hilfreich zum ausprobieren von regulären Ausdrücken sind.

Related Links:

Mehr erfahren