Homepages speichern und archivieren

ZoliTeglas

ZoliTeglas

Aktives Mitglied
Thread Starter
Dabei seit
10.09.2003
Beiträge
7.356
Reaktionspunkte
446
Moin zusammen,
berufsbedingt treibe ich mich viel in Foren rum. Nun findet man dort immer wieder Tips, die man sich merken möchte.

Nun habe ich bisher mit Bookmarks gearbeitet, jedoch sehr oft nun schon erlebt, dass die Page/der Thread irgendwann nicht mehr online war.

Deshalb dachte ich, dass ich diese Seiten offline verfügbar machen sollte. Nun ist die Frage wie?

Ja, ich kann die Seite als Webarchiv speichern, jedoch verliert man dann schnell den Überblick.


Hat Jemand vielleicht Erfahrungen bzw. eine Idee, wie ich Seiten offline verfügbar mache und so, dass ich später auch wieder den Tip/Eintrag finde? Verschlagwortung? Apps, mit denen man das Anliegen gut umsetzen kann?

Bin für jeden Hinweis dankbar!
Bestes
Zoltan
 
Bei Foren ist die "Problematik" dass die Seiten durch PHP bzw. Perlskripte serverseitig generiert werden und dann an den Client (Browser) ausgeliefert werden sobald sie erstellt sind. Ideal wäre natürlich einen Dump der Datenbank zu haben, aber sowas wird dir kein Foreninhaber einfach so überlassen.

Bevor die ganzen Webforen aufkamen gab es ja immerhin auch noch Usenet und Mailinglisten, über die auch heute noch einiges geht. Diese Sachen werden dann auch häufiger archiviert. Teilweise findet man hochgradige Spezialisten dort, die schon seit Jahren mit dem Internet verwurzelt sind.
 
Eine Alternative kann auch sein, eine interessante Seite als PDF zu drucken und dann mittels Spotlight später suchen. So mache ich das und das geht ganz gut wobei das bei mir recht hobby-mäßig läuft und mein "Archiv" daher recht überschaubar ist.
 
  • Gefällt mir
Reaktionen: lostreality, Mankind75, permafrost und eine weitere Person
Für Deine Zwecke scheint mir Evernote die beste Variante. Mit dem Evernote-Clipper kannst Du direkt aus dem Browser die ganze Seite oder Teile davon in Evernote speichern. Der Zugriff erfolgt dann über eine Volltextsuche oder auch Schlagwörter (Tags), wenn Du diese vorher manuell vergeben hast.

Um im größerem Maßstab Webseiten zu archivieren gibt es sogenannte Crawler. So was wäre für Desktop-Systeme z. B. HTTrack (https://www.httrack.com/) und für iOS Oflline Pages oder iSaveWeb Pro. Allerdings wäre das eigentlich ein anderer Use Case als der von Dir gewünschte.

Übrigens darf man bei strenger Auslegung des Urheberrechts Webseiten ohne ausdrückliche Zustimmung des Rechteinhabers gar nicht abspeichern. Aber im privaten Kontext ist das weitgehend irrelevant.
 
Bei Foren ist die "Problematik" dass die Seiten durch PHP bzw. Perlskripte serverseitig generiert werden und dann an den Client (Browser) ausgeliefert werden sobald sie erstellt sind. Ideal wäre natürlich einen Dump der Datenbank zu haben, aber sowas wird dir kein Foreninhaber einfach so überlassen.

Bevor die ganzen Webforen aufkamen gab es ja immerhin auch noch Usenet und Mailinglisten, über die auch heute noch einiges geht. Diese Sachen werden dann auch häufiger archiviert. Teilweise findet man hochgradige Spezialisten dort, die schon seit Jahren mit dem Internet verwurzelt sind.

Ja, das waren noch Zeiten, als Mailinglisten die Oberhand hatten! Die Problematik mit php sehe ich leider auch!

Eine Alternative kann auch sein, eine interessante Seite als PDF zu drucken und dann mittels Spotlight später suchen. So mache ich das und das geht ganz gut wobei das bei mir recht hobby-mäßig läuft und mein "Archiv" daher recht überschaubar ist.

Mmmhhh.... OK! Und du findest dann über Spotlight auch PDFs, die irgendwo im Text ein gesuchtes Wort enthalten? Muss ich mir mal anschauen und testen!


Für Deine Zwecke scheint mir Evernote die beste Variante. Mit dem Evernote-Clipper kannst Du direkt aus dem Browser die ganze Seite oder Teile davon in Evernote speichern. Der Zugriff erfolgt dann über eine Volltextsuche oder auch Schlagwörter (Tags), wenn Du diese vorher manuell vergeben hast.

Um im größerem Maßstab Webseiten zu archivieren gibt es sogenannte Crawler. So was wäre für Desktop-Systeme z. B. HTTrack (https://www.httrack.com/) und für iOS Oflline Pages oder iSaveWeb Pro. Allerdings wäre das eigentlich ein anderer Use Case als der von Dir gewünschte.

Übrigens darf man bei strenger Auslegung des Urheberrechts Webseiten ohne ausdrückliche Zustimmung des Rechteinhabers gar nicht abspeichern. Aber im privaten Kontext ist das weitgehend irrelevant.

OK, das Rechtliche war/ist mir bewusst! Oft sind es Threads, die ich selbst gestartet habe. Fragen, die ich gerne mit anderen beantworten würde. Sicherlich rechtlich bedenklich, aber da muss ich nun in den sauren Apfel beissen.

Evernote kenne ich noch von früher. Ich habe es aber lange nicht mehr genutzt, da mir dieses "werde doch Premium und dann haste noch mehr" derbe auf den Senkel ging. Aber dann sollte ich mir Clipper mal anschauen! Scheint ja das zu sein, was ich suche.

HTTrack kenne ich auch nicht! Ist das sowas wie SiteSucker? Dann ist das in der Tat weniger hilfreich :)



@all: Danke Danke Danke!
 
Mit DevonThink kann man Webseiten auch bequem speichern und verschlagworten.
 
Wenn das Backend und das dynamische Zustandekommen einer Seite egal ist und wirklich nur der momentane Zustand wichtig ist, ist wget das Mittel der Wahl!

Beispiel:

wget www.macuser.de

lädt die Portalseite von macuser.de in genau dem Moment in eine lokale index.html . Einziger Knackpunkt: CSS-Dateien etc. werden natürlich noch von der Quell-URL geladen. Gibt es auch die irgendwann nicht mehr wird es schwer. Man kann aber bei wget noch eine Menge mit Parametern machen. Würde mich nicht wundern, wenn man so eine komplette Site downloaden kann!
 
Eine Möglichkeit wäre, an statt die komplette Webseite zu speichern, was meistens unnötig ist, kann man die Inhalte (bei Foren meistens Text) in eine Textdatei kopieren und dann speichern. Man hat dann nur noch eine (große) Textdatei, in der man über die Textsuche meist sehr schnell zu den interessanten Stellen kommt.

Alternativ kann man natürlich auch Webarchive der Seiten generieren und eine Software verwenden, die die Archive verwaltet (wo man also aussagekräftige Titel, Schlagworte usw. vergeben kann).
DevonThink wurde genannt, kostet aber Geld und ist vielleicht zu viel des guten. Alternativ könnte man hierfür auch das Programm BibDesk (miss)brauchen. BibDesk ist eigentlich eine Literaturdatenbank und hilft dabei Literaturverzeichnisse für das Textsatzprogramm LaTeX zu erzeugen. In einer solchen Datenbank kann man Einträge für die einzelnen Quellen anlegen und auch lokale Dateien verlinken. Das ist praktisch, wenn man einen Artikel als PDF-Datei hat, den man für wichtig hält. Dann legt man einen neuen Eintrag mit den Literaturdaten des Artikels an und kann die PDF-Datei direkt verlinken und auch öffnen. In deinem Fall kann man einfach für jede archivierte Seite einen neuen Eintrag erzeugen (als Literaturart bietet sich „Webpage¡ an; das Programm ist englisch, aber leicht zu bedienen). Da kann man dann URL, Jahr und Tag, an dem das Webarchiv angelegt wurde, und Schlüsselwörter vergeben und das Archiv verlinken. Wichtig sind hier mMn besonders die Schlüsselwörter, denn im Programm kann man sich später alle Einträge mit einem bestimmten Schlüsselwort anzeigen lassen oder nach ihnen suchen. Wenn dir das schon reicht, wäre BibDesk eine günstige (kostenlose) alternative.
 
  • Gefällt mir
Reaktionen: MacMac512
@TEXnician : Bin ja auch ein LaTeX Vertreter, aber auf die Idee bisher noch nicht gekommen. Sehr sehr cool! ;)
Klappt das direkt mit eigenen Ordnerstrukturen? Bisher habe ich die Hyperlinks von TeX immer über URLs laufen lassen.
 
Euch ist schon klar, dass ihr im Firefox einfach "Save Page As" nutzen könnt und er neben dem HTML auch die Bilder, CSS und sogar Scripts der Seite lädt? "Web Page (complete)"
Die Links in der geladenen HTML Seite werden umstrukturiert, sodass die lokal gespeicherten Bilder etc. genutzt werden.
 
@Kaito : Das ist schon klar. Allerdings erzeugt das auch im Gegensatz zu einer einfachen PDF deutlich mehr Dateien.
Aber das ist ja letztlich auch nur ein Crawler mit einer sehr einfachen GUI. :)
Bildschirmfoto 2016-12-08 um 13.26.38.png
 
Klappt das direkt mit eigenen Ordnerstrukturen? Bisher habe ich die Hyperlinks von TeX immer über URLs laufen lassen.

Verstehe ich nicht ganz. Du kannst die Dateien lokal von jedem Ort verlinken, solltest danach allerdings nicht mehr den Ort ändern, denn es wird wirklich nur der Dateipfad gespeichert (BibDesk erstellt ja nur eine bib-Datei, in der man die Originaldaten ja nicht einbetten kann). Der Pfad selbst wird in der bib-Datei etwas kryptisch hinterlegt, was allerdings bei der Verwendung in LaTeX-Dokumenten kein Problem ist.

Euch ist schon klar, dass ihr im Firefox einfach "Save Page As" nutzen könnt und er neben der HTML auch die Bilder, CSS und evt. sogar Scripts der Seite lädt? "Web Page (complete)"

Webarchive von Safari erfüllen ja die Voraussetzungen des Threaderstellers, zumindest habe ich das so verstanden. Die Frage ist vielmehr, wenn man jetzt viele Seiten auf diese Weise archiviert, wie man am Ende bestimmte Seiten wiederfinden kann. Am besten ohne jede einzelne Seite nochmal genau durchzulesen oder Informationen umständlich in den Datei- oder Ordnernamen zu schreiben.
 
Da das HTML simpler Text ist sollte doch Spotlight greifen?
 
Ich glaube, die Diskussion geht in eine falsche Richtung. Es geht ihm offensichtlich weniger um eine akkurate Webseitenarchivierung (dazu gäbe es viel zu sagen, das mache ich nämlich beruflich), sondern um das Ablegen von Webinhalten in einem virtuellen Notizbuch. Da gibt es diverse Lösungen für. Neben Evernote (was ich selbst dafür nutze) geht das z. B. auch mit OneNote.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: ZoliTeglas
Ich habe ja einen ähnlichen Vorschlag genannt, Copy & Paste mit einer einfachen Textdatei. Natürlich kann man auch ein Programm dafür verwenden, kommt halt drauf an, was der Threadersteller bevorzugt.
 
Verstehe ich nicht ganz. Du kannst die Dateien lokal von jedem Ort verlinken, solltest danach allerdings nicht mehr den Ort ändern, denn es wird wirklich nur der Dateipfad gespeichert (BibDesk erstellt ja nur eine bib-Datei, in der man die Originaldaten ja nicht einbetten kann). Der Pfad selbst wird in der bib-Datei etwas kryptisch hinterlegt, was allerdings bei der Verwendung in LaTeX-Dokumenten kein Problem ist.

Genau das meine ich. Im Sinne von relativer Pfadangabe wie in HTML. :)
 
Mmmhhh.... OK! Und du findest dann über Spotlight auch PDFs, die irgendwo im Text ein gesuchtes Wort enthalten? Muss ich mir mal anschauen und testen!
Ja, das funktioniert hier ganz hervorragend unter 10.6.8, ich nehme an unter sierra wird das auch funktionieren. Im Anhang mal ein Screenshot davon, ich hab die Threadseite gedruckt und als PDF gespeichert mit Namen Testpage, wie man sehen kann suche ich nach @TEXnician und obwohl der Name noch nicht vollständig geschrieben ist bekomme ich die Testpage als obersten Treffer angezeigt. Meine Masterarbeit hab ich jetzt bestimmt schon seit 2010 nicht mehr angefasst, Pauli war einer der Ing auf die ich mich im Dokument u.a. bezog, auch hier ist das der oberste Treffer. Das funktioniert auch mit anderen Suchbegriffen. Wie gesagt, ich denke aber auch dass das bei mir noch recht überschaubar ist, meine interessanten, gespeicherten Internet-Inhalte sind nicht mal 1000 Dateien, ich vermag nicht abzuschätzen wie das ausschaut wenn man tausende von PDFs zum Durchsuchen hat.
 

Anhänge

  • Forum_PDFs_Spotlight1.png
    Forum_PDFs_Spotlight1.png
    34,3 KB · Aufrufe: 76
  • Forum_PDFs_Spotlight2.png
    Forum_PDFs_Spotlight2.png
    84,5 KB · Aufrufe: 73
Moin zusammen,
berufsbedingt treibe ich mich viel in Foren rum. Nun findet man dort immer wieder Tips, die man sich merken möchte.

Nun habe ich bisher mit Bookmarks gearbeitet, jedoch sehr oft nun schon erlebt, dass die Page/der Thread irgendwann nicht mehr online war.

Deshalb dachte ich, dass ich diese Seiten offline verfügbar machen sollte. Nun ist die Frage wie?

Ja, ich kann die Seite als Webarchiv speichern, jedoch verliert man dann schnell den Überblick.


Hat Jemand vielleicht Erfahrungen bzw. eine Idee, wie ich Seiten offline verfügbar mache und so, dass ich später auch wieder den Tip/Eintrag finde? Verschlagwortung? Apps, mit denen man das Anliegen gut umsetzen kann?

Bin für jeden Hinweis dankbar!
Bestes
Zoltan
Ich speichere die Seiten über iBooks als PDF. Klappt sehr gut.
 
Danke danke... Evernote Clipper schaut in der Tat sehr schick aus! Das wäre im Grunde was. Jedoch nervt es etwas, dass man sich ständig im Browser neu einloggen muss. Da habe ich nicht nicht verstanden, wieso das nicht automatisch geht.

Die Sache mit den PDFs teste ich später mal! Eigentlich auch ne coole Idee. Aber Evernote und der Sync auf andere Geräte, ist natürlich extrem sexy!
 
Zurück
Oben Unten