Daniela und Frank Leyhe GbR
Alte Hellersdorfer Straße 141
Berlin
Germany / Berlin / Berlin 12629
Phone: +49 (0)30 889 454 24

Eigener Crawler

Sie sind hier

Eigener Crawler

6 Beiträge / 0 neu
Letzter Beitrag
Pehu
Bild des Benutzers Pehu
Eigener Crawler

Hi all,

ich habe einen eigenen Crawler beauftragt, meine Foren zu crawlen. Es hat leider nicht sehr lange gedauert bis meine IP in der rules.def landete. Also daraus gelöscht und in der Whitelist die IP in die Rubrik "IP Freigabe für gute Bot`s" eingetragen. Ohne Erfolg. Also noch den UA in die "UserAgent Ausnahme" geschrieben. Leider ebenfalls ohne Erfolg. Was nun?

LG Peter

Bearbeitet von: Pehu an 07.07.2012 - 02:54
Frank
Bild des Benutzers Frank
Kommt auf den Crawler an, was

Kommt auf den Crawler an, was der da genau macht und was blockiert wird.

 

Log Eintrag wird ja bestimmt vorhanden sein. Ich gehe bei dem aus, was Du hier beschrieben hast, das dort etliches blockiert wird. Aber wozu brauchst Du einen eigenen Crawler?

Pehu
Bild des Benutzers Pehu
Hi Frank,

Hi Frank,

da die Kinderseite ja neu ist, wollte ich eine sitemap.xml erstellen, da Google laut der alten robots.txt nicht auf die Seite zugreifen darf. Die robots.txt ist zwar geändert (letzte Nacht ca. 1:00 Uhr), aber ich weiß leider nicht, wie ich Google sonst dazu bringen soll, die robots.txt neu zu lesen.. Das einzige (was mir gerade einfällt), das ich bei den Google Webmastertools die Seite lösche und nach einer kleinen Pause wieder neu eintrage.

Zum Logeintrag im CT:

UA: Ha-Bo Bot (Ist auch bei phpBB so eingetragen)

Query
mode=delete_cookies

Ziel-URL
/ucp.php?mode=delete _cookies.

LG Peter

Frank
Bild des Benutzers Frank
Ach so, also wenn Du nun

Ach so, also wenn Du nun Google das erlaubt hast und die sitemap.xml erzeugt wurde, kommen die lieben Bots sehr schnell vorbei.

 

Was die Blocks angeht, das kommt nur vor wegen dem Bot oder auch normal als User?

Pehu
Bild des Benutzers Pehu
Jepp, habe ich schon gesehen.

Jepp, habe ich schon gesehen. Ich habe aber die robots.txt so genommen, wie Du sie in einem Beitrag hier empfohlen hast.

Also darf jetzt nur Google, Bing, Yahoo, also nur die bekannten Bots. Hatte für Google eine Ausnhame geschrieben (Hab ich glaub ich aus Deinem alten Forum)

User-agent: Googlebot
Disallow: /adm/cts_blocker.log
Disallow: /adm/ct_blocker.txt
Disallow: /adm/cts_flood.log
Disallow: /adm/ct_spy.txt
Disallow: /adm/ct_flood.txt
Disallow: /cts_blocker.log
Disallow: /ct_blocker.txt
Disallow: /ct_flood.txt
Disallow: /cts_flood.log
Disallow: /ct_spy.txt
Disallow: /ct_bb/ct_blacklist.dat
Disallow:    /adm/index.php
Disallow: /adm/counter.php
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.png$
 

Angepasst auf phpBB. Muss ich jetzt nur noch für die anderen "guten" Bots reinschreiben. Bing war heute auch schon da (Jaja, manchmal ist Kleinweich schnell ;-) )

Und die Blocks kommen nur wegen dem Bot. Rest per PN

Pehu
Bild des Benutzers Pehu
Robots-Eintrag

Ich habe das jetzt mal so in die robots.txt eingetragen:

User-agent: AdsBot-Google
User-agent: Scooter/
User-agent: bingbot/
User-agent: Mediapartners-Google
User-agent: Google Desktop
User-agent: Googlebot
User-agent: heise-IT-Markt-Crawler
User-agent: MetagerBot/
User-agent: msnbot-NewsBlogs/
User-agent: msnbot/
User-agent: msnbot-media/
User-agent: crawleradmin.t-info@telekom.de
User-agent: W3 SiteSearch Crawler
User-agent: W3C-checklink/
User-agent: W3C_*Validator
User-agent: Yahoo! DE Slurp
User-agent: Yahoo! Slurp
User-agent: YahooSeeker/
Disallow: /adm/cts_blocker.log
Disallow: /adm/ct_blocker.txt
Disallow: /adm/cts_flood.log
Disallow: /adm/ct_spy.txt
Disallow: /adm/ct_flood.txt
Disallow: /cts_blocker.log
Disallow: /ct_blocker.txt
Disallow: /ct_flood.txt
Disallow: /cts_flood.log
Disallow: /ct_spy.txt
Disallow: /ct_bb/ct_blacklist.dat
Disallow:    /adm/index.php
Disallow: /adm/counter.php
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.png$
 

Die liste habe ich aus der phpBB Liste und mit den Eintragungen von Franks Beispiel abgeglichen. Ich hoffe, die Eintragung ist so okay.

Benutzeranmeldung

Um automatisierten Spam vorzubeugen lassen Sie dieses Feld leer.

Counter

  • Site Counter:1,436,182
  • Besucher:
    • Heute:77
    • Woche:922
    • Monat:14,875

Social