wget kann keine wikipedia seiten herunterladen

Dieses Thema im Forum "Mac OS X - Unix & Terminal" wurde erstellt von vert, 21.03.2007.

  1. vert

    vert Thread Starter MacUser Mitglied

    Beiträge:
    366
    Zustimmungen:
    4
    MacUser seit:
    10.02.2006
    ich benutze das kommandozeitlentool wget (gibts zb über fink) um webseiten rekursiv runterzladen, damit auch manche sachen (v.a. für die uni) offline zur verfügung habe.
    jezt brauch ich aber was von wikipedia, und hier werde ich (bzw. wget) ausgesperrt.

    wgets anfrage gibt nur die seite die ich direkt eingebe, aber rekursiv geht nix, da bekomme ich nur die datei robots.txt. gut, das ding angeschaut, und mal den robots exclusion standart in wikipedia nachgeschaut. jezt versteh ich zwar warum (hätte ich auch selber draufkommen können:rolleyes: ), aber es gibt in der robots.txt folgende zeilen:

    #
    # Sorry, wget in its recursive mode is a frequent problem.
    # Please read the man page and use it properly; there is a
    # --wait option you can use to set the delay between hits,
    # for instance.
    #
    User-agent: wget
    Disallow: /

    So wie ich das verstehe ist es von wikipedia aus also durchaus "erlaubt" die seiten rekursiv runterzuladen, nur halt bitte (verständlicherweise) mit wartezeite.

    allerdings habe ich jetzt schon ewig in der man rumgeblättert und alles versucht, aber es will ums verrecken nicht funktionieren. kann mir irgendjemand helfen? ich bin halt leider nicht so der terminal checker, ich denke es fängt schon bei so einfachen sachen an:
    -w seconds
    --wait=seconds
    Wait the specified number of seconds between the retrievals. Use
    of this option is recommended, as it lightens the server load by
    making the requests less frequent. Instead of in seconds, the time
    can be specified in minutes using the "m" suffix, in hours using
    "h" suffix, or in days using "d" suffix.

    was mach ich da? nur -w 10? oder -w 10 --wait=10 oder --wait=10 ?

    komischerweise hab ichs auf anhieb geschaft einen komletten skript mit passwort runterzuladen, also blöd bin ich wohl nicht:p , aber hier hänge ich total

    vert
     
  2. promille

    promille MacUser Mitglied

    Beiträge:
    1.302
    Zustimmungen:
    36
    MacUser seit:
    23.11.2004
    Vielleicht hilft die Angabe (bei -r), bis zu welcher Tiefe die Links verfolgt werden sollen. Weil bei Wikipedia kann man durch Links ja fast auf die Hälfte der Seiten gelangen.
     
  3. vert

    vert Thread Starter MacUser Mitglied

    Beiträge:
    366
    Zustimmungen:
    4
    MacUser seit:
    10.02.2006
    -r geht wohl standartmäßig auf 5, das sollte nicht zu viel sein. kann man wohl über z.b.-l=3 einschränken, aber da komme ich auch wieder auf einen prompt der mir was von "reclevel: Invalid specification `=3'." erzählt. und dann komme ich wieder in die schöne -level=3 oder -l--level=3 usw. situation.

    vert
     
  4. xlqr

    xlqr MacUser Mitglied

    Beiträge:
    1.943
    Zustimmungen:
    15
    MacUser seit:
    08.09.2003
    also ich würd wikipedia so verstehen, dass wget ausgesperrt bleibt, bis alle gelernt haben damit umzugehen :cool:

    HTML:
    User-agent: wget
    Disallow: /
    heisst doch, kein wget egal in welcher einstellung :kopfkratz:
     
  5. admartinator

    admartinator MacUser Mitglied

    Beiträge:
    15.294
    Zustimmungen:
    290
    MacUser seit:
    09.09.2003
    Versuch's mal hiermit:

    http://www.limit-point.com/BlueCrab/BlueCrab.html
     
  6. vert

    vert Thread Starter MacUser Mitglied

    Beiträge:
    366
    Zustimmungen:
    4
    MacUser seit:
    10.02.2006
    wenn dem so wäre, dann würden sie wohl nicht den hinweis geben was man zum beispiel machen kann damit es richtig benutzt ist (also wait)

    so wie ich diesen robots exclusion standart versthe ist diese .txt nicht verbindlich, sondern nur eine empfehlung. es sthet jedem bot frei das zu ignorieren (was aber halt nicht gern gesehen wird).
    ich will ja gar nicht alles runterladen und den wiki server mordsmäßig mit meinen anfragen auslasten, dafür habe ich vollstes verständnis, aber wie gesagt, ich verstehe das obige so, das ich das durchaus darf, nur halt bitte mit rücksichtsmasnahmen.

    vert
     
  7. maceis

    maceis MacUser Mitglied

    Beiträge:
    16.645
    Zustimmungen:
    596
    MacUser seit:
    24.09.2003
    Warum wget, wenn Mac OS X doch schon curl mitbringt?
    Schon versucht?
     
  8. IceHouse

    IceHouse MacUser Mitglied

    Beiträge:
    686
    Zustimmungen:
    22
    MacUser seit:
    03.06.2002
    Warum kompliziert, wenn es ganz offiziell und einfach geht?

    Gruss von IceHouse
     
  9. vert

    vert Thread Starter MacUser Mitglied

    Beiträge:
    366
    Zustimmungen:
    4
    MacUser seit:
    10.02.2006
    also die offiziell und einfach version ist mir zuviel, soviel platz hab ich ja uf meinem ibook garnicht. auserdem brauch ich ja garnicht alles.

    ich habs mal mit curl versucht, aber da versteh ich wohl auch irgendwas falsch.

    Code:
     curl --limit-rate 100K --max-redirs 5 http://de.wikipedia.org/wiki/Anorganische_Chemie
    sollte nach meinem verständniss der man die seite rekursiv, auf fünf ebenen und mit reduzierter geschwindigkeit runterladen, allerdings bekomme ich dann nur den quelltext ins terminal (oder ich finde die erzeugte datei nicht, aber es hat nur 5 sekunden gedaueret, ist also sehr unwarscheinlich das das mehr als nur den quelltext heruntergeladen hat.

    vert
     
  10. Tyu

    Tyu MacUser Mitglied

    Beiträge:
    4
    Zustimmungen:
    0
    MacUser seit:
    19.01.2012
    obwohl ich nun einpaar Jahre zu spät komme: Wikipediaseiten lassen sich nur von bekannten Browsern anfordern... oder wenn man sich als einen ausgibt. Tipp: Header des User Agent anpassen... wenn das bei wget möglich ist ...hab keine Ahnung von Mac xD
     
Die Seite wird geladen...

Diese Seite empfehlen