vert
Aktives Mitglied
Thread Starter
- Dabei seit
- 10.02.2006
- Beiträge
- 388
- Reaktionspunkte
- 4
ich benutze das kommandozeitlentool wget (gibts zb über fink) um webseiten rekursiv runterzladen, damit auch manche sachen (v.a. für die uni) offline zur verfügung habe.
jezt brauch ich aber was von wikipedia, und hier werde ich (bzw. wget) ausgesperrt.
wgets anfrage gibt nur die seite die ich direkt eingebe, aber rekursiv geht nix, da bekomme ich nur die datei robots.txt. gut, das ding angeschaut, und mal den robots exclusion standart in wikipedia nachgeschaut. jezt versteh ich zwar warum (hätte ich auch selber draufkommen können ), aber es gibt in der robots.txt folgende zeilen:
#
# Sorry, wget in its recursive mode is a frequent problem.
# Please read the man page and use it properly; there is a
# --wait option you can use to set the delay between hits,
# for instance.
#
User-agent: wget
Disallow: /
So wie ich das verstehe ist es von wikipedia aus also durchaus "erlaubt" die seiten rekursiv runterzuladen, nur halt bitte (verständlicherweise) mit wartezeite.
allerdings habe ich jetzt schon ewig in der man rumgeblättert und alles versucht, aber es will ums verrecken nicht funktionieren. kann mir irgendjemand helfen? ich bin halt leider nicht so der terminal checker, ich denke es fängt schon bei so einfachen sachen an:
-w seconds
--wait=seconds
Wait the specified number of seconds between the retrievals. Use
of this option is recommended, as it lightens the server load by
making the requests less frequent. Instead of in seconds, the time
can be specified in minutes using the "m" suffix, in hours using
"h" suffix, or in days using "d" suffix.
was mach ich da? nur -w 10? oder -w 10 --wait=10 oder --wait=10 ?
komischerweise hab ichs auf anhieb geschaft einen komletten skript mit passwort runterzuladen, also blöd bin ich wohl nicht , aber hier hänge ich total
vert
jezt brauch ich aber was von wikipedia, und hier werde ich (bzw. wget) ausgesperrt.
wgets anfrage gibt nur die seite die ich direkt eingebe, aber rekursiv geht nix, da bekomme ich nur die datei robots.txt. gut, das ding angeschaut, und mal den robots exclusion standart in wikipedia nachgeschaut. jezt versteh ich zwar warum (hätte ich auch selber draufkommen können ), aber es gibt in der robots.txt folgende zeilen:
#
# Sorry, wget in its recursive mode is a frequent problem.
# Please read the man page and use it properly; there is a
# --wait option you can use to set the delay between hits,
# for instance.
#
User-agent: wget
Disallow: /
So wie ich das verstehe ist es von wikipedia aus also durchaus "erlaubt" die seiten rekursiv runterzuladen, nur halt bitte (verständlicherweise) mit wartezeite.
allerdings habe ich jetzt schon ewig in der man rumgeblättert und alles versucht, aber es will ums verrecken nicht funktionieren. kann mir irgendjemand helfen? ich bin halt leider nicht so der terminal checker, ich denke es fängt schon bei so einfachen sachen an:
-w seconds
--wait=seconds
Wait the specified number of seconds between the retrievals. Use
of this option is recommended, as it lightens the server load by
making the requests less frequent. Instead of in seconds, the time
can be specified in minutes using the "m" suffix, in hours using
"h" suffix, or in days using "d" suffix.
was mach ich da? nur -w 10? oder -w 10 --wait=10 oder --wait=10 ?
komischerweise hab ichs auf anhieb geschaft einen komletten skript mit passwort runterzuladen, also blöd bin ich wohl nicht , aber hier hänge ich total
vert