wget kann keine wikipedia seiten herunterladen

vert

Aktives Mitglied
Thread Starter
Dabei seit
10.02.2006
Beiträge
388
Reaktionspunkte
4
ich benutze das kommandozeitlentool wget (gibts zb über fink) um webseiten rekursiv runterzladen, damit auch manche sachen (v.a. für die uni) offline zur verfügung habe.
jezt brauch ich aber was von wikipedia, und hier werde ich (bzw. wget) ausgesperrt.

wgets anfrage gibt nur die seite die ich direkt eingebe, aber rekursiv geht nix, da bekomme ich nur die datei robots.txt. gut, das ding angeschaut, und mal den robots exclusion standart in wikipedia nachgeschaut. jezt versteh ich zwar warum (hätte ich auch selber draufkommen können:rolleyes: ), aber es gibt in der robots.txt folgende zeilen:

#
# Sorry, wget in its recursive mode is a frequent problem.
# Please read the man page and use it properly; there is a
# --wait option you can use to set the delay between hits,
# for instance.
#
User-agent: wget
Disallow: /

So wie ich das verstehe ist es von wikipedia aus also durchaus "erlaubt" die seiten rekursiv runterzuladen, nur halt bitte (verständlicherweise) mit wartezeite.

allerdings habe ich jetzt schon ewig in der man rumgeblättert und alles versucht, aber es will ums verrecken nicht funktionieren. kann mir irgendjemand helfen? ich bin halt leider nicht so der terminal checker, ich denke es fängt schon bei so einfachen sachen an:
-w seconds
--wait=seconds
Wait the specified number of seconds between the retrievals. Use
of this option is recommended, as it lightens the server load by
making the requests less frequent. Instead of in seconds, the time
can be specified in minutes using the "m" suffix, in hours using
"h" suffix, or in days using "d" suffix.

was mach ich da? nur -w 10? oder -w 10 --wait=10 oder --wait=10 ?

komischerweise hab ichs auf anhieb geschaft einen komletten skript mit passwort runterzuladen, also blöd bin ich wohl nicht:p , aber hier hänge ich total

vert
 
Vielleicht hilft die Angabe (bei -r), bis zu welcher Tiefe die Links verfolgt werden sollen. Weil bei Wikipedia kann man durch Links ja fast auf die Hälfte der Seiten gelangen.
 
-r geht wohl standartmäßig auf 5, das sollte nicht zu viel sein. kann man wohl über z.b.-l=3 einschränken, aber da komme ich auch wieder auf einen prompt der mir was von "reclevel: Invalid specification `=3'." erzählt. und dann komme ich wieder in die schöne -level=3 oder -l--level=3 usw. situation.

vert
 
#
# Sorry, wget in its recursive mode is a frequent problem.
# Please read the man page and use it properly; there is a
# --wait option you can use to set the delay between hits,
# for instance.
#
User-agent: wget
Disallow: /

So wie ich das verstehe ist es von wikipedia aus also durchaus "erlaubt" die seiten rekursiv runterzuladen, nur halt bitte (verständlicherweise) mit wartezeite.

also ich würd wikipedia so verstehen, dass wget ausgesperrt bleibt, bis alle gelernt haben damit umzugehen :cool:

HTML:
User-agent: wget
Disallow: /
heisst doch, kein wget egal in welcher einstellung :kopfkratz:
 
also ich würd wikipedia so verstehen, dass wget ausgesperrt bleibt, bis alle gelernt haben damit umzugehen :cool:
wenn dem so wäre, dann würden sie wohl nicht den hinweis geben was man zum beispiel machen kann damit es richtig benutzt ist (also wait)

HTML:
User-agent: wget
Disallow: /
heisst doch, kein wget egal in welcher einstellung :kopfkratz:
so wie ich diesen robots exclusion standart versthe ist diese .txt nicht verbindlich, sondern nur eine empfehlung. es sthet jedem bot frei das zu ignorieren (was aber halt nicht gern gesehen wird).
ich will ja gar nicht alles runterladen und den wiki server mordsmäßig mit meinen anfragen auslasten, dafür habe ich vollstes verständnis, aber wie gesagt, ich verstehe das obige so, das ich das durchaus darf, nur halt bitte mit rücksichtsmasnahmen.

vert
 
Warum wget, wenn Mac OS X doch schon curl mitbringt?
Schon versucht?
 
  • Gefällt mir
Reaktionen: pocketcrocodile
also die offiziell und einfach version ist mir zuviel, soviel platz hab ich ja uf meinem ibook garnicht. auserdem brauch ich ja garnicht alles.

ich habs mal mit curl versucht, aber da versteh ich wohl auch irgendwas falsch.

Code:
 curl --limit-rate 100K --max-redirs 5 http://de.wikipedia.org/wiki/Anorganische_Chemie
sollte nach meinem verständniss der man die seite rekursiv, auf fünf ebenen und mit reduzierter geschwindigkeit runterladen, allerdings bekomme ich dann nur den quelltext ins terminal (oder ich finde die erzeugte datei nicht, aber es hat nur 5 sekunden gedaueret, ist also sehr unwarscheinlich das das mehr als nur den quelltext heruntergeladen hat.

vert
 
obwohl ich nun einpaar Jahre zu spät komme: Wikipediaseiten lassen sich nur von bekannten Browsern anfordern... oder wenn man sich als einen ausgibt. Tipp: Header des User Agent anpassen... wenn das bei wget möglich ist ...hab keine Ahnung von Mac xD
 
Sowohl curl als auch wget erlauben das Angeben eines eigenen User-Agent, wie auch Referer oder ganzen Headers.
 
Zurück
Oben Unten