Möchten Sie jedes Lesezeichen, das Ihnen wichtig ist, offline behalten?  Wir zeigen Ihnen, wie Sie Ihr eigenes selbst gehostetes Open-Source-Webarchiv erstellen.

So erstellen Sie Ihre eigene private, selbst gehostete Read-It-Later-App

Werbung Das Internet ist ein riesiger Wissensschatz. Aber es ist flüchtig und es gibt keine Garantie dafür, dass der Inhalt, den Sie mögen, in Zukunft dort sein wird. Wenn Sie es sich nicht leisten können, diesen Inhalt zu verlieren, können Sie ein Webarchivierungstool verwenden, um eine Kopie der Webseite zu speichern. Vie

Werbung

Das Internet ist ein riesiger Wissensschatz. Aber es ist flüchtig und es gibt keine Garantie dafür, dass der Inhalt, den Sie mögen, in Zukunft dort sein wird. Wenn Sie es sich nicht leisten können, diesen Inhalt zu verlieren, können Sie ein Webarchivierungstool verwenden, um eine Kopie der Webseite zu speichern.

Viele Benutzer verwenden später gelesene Dienste zum Speichern von Webartikeln. Diese Apps funktionieren am besten mit textbasierten Inhalten und verarbeiten komplizierte Webseiten-Designs oder Medien nicht richtig. Willst du mehr Kontrolle?

Sehen wir uns an, wie Sie einen Instapaper- oder Pocket-Klon auf Ihrem Computer erstellen können, ohne ein Webseiten-Asset zu verlieren.

Einführung in ArchiveBox

ArchiveBox ist eine Open Source-Lösung, mit der Sie Ihre eigene Alternative zu einem Archivierungsdienst wie Wayback Machine hosten können. Sie geben Ihre Privatsphäre nicht auf oder bleiben in einem Dienst eingeschlossen, den Sie nicht kontrollieren können.

Es verwendet die Liste der zu archivierenden URLs und erstellt einen lokalen, durchsuchbaren HTML-Klon des Inhalts in mehreren Formaten. Es enthält lokale Kopien in HTML, einen Screenshot der Seite, eine PDF-Datei und WARC (Web ARChive).

Diese Kopien bleiben auch dann bei Ihnen, wenn die ursprüngliche Webseite in Zukunft verschwindet.

ArchiveBox ist in Python 3 geschrieben. Es verwendet auch Abhängigkeiten wie Wget, Headless Chrome, Youtube-dl und andere Unix-Tools, um die Webseite zu speichern. Sie benötigen keinen ständig laufenden Backend-Server. Führen Sie es einfach jedes Mal aus, wenn Sie neue Links importieren und die statische Ausgabe aktualisieren möchten.

Sobald die Archivierung abgeschlossen ist, können Sie die generierte Ausgabe / index.html in Ihrem Browser öffnen, um das Archiv anzuzeigen.

ArchiveBox

Vorteile von ArchiveBox

  • Es archiviert die Links in verschiedenen Dateiformaten, die als Backups dienen.
  • Es wird versucht, die ursprüngliche Webseite mit ausgeklügelten Erfassungsmethoden beizubehalten.
  • Verfügt über die Fähigkeit, den Inhalt automatisch zu extrahieren und in einem einzelnen Ordner zu speichern.
  • Es bietet auch eine einfache Befehlszeilenschnittstelle für die Verwaltung mehrerer Links, Feeds und Lesezeichen. Sie müssen es einmal festlegen und nach einem Zeitplan ausführen, um neuere Links zu archivieren.

Nachteile von ArchiveBox

  • ArchiveBox extrahiert alle Assets von der Webseite. Es verbraucht viel Speicherplatz und ist CPU-intensiv.
  • Die App erfordert drei oder mehr Abhängigkeiten jenseits von Python 3.5. Es ist ein Versuch und Irrtum, um diese Komponenten zusammenarbeiten zu lassen.
  • Die App unterstützt das Windows-Betriebssystem nicht vollständig. Sie müssen Docker installieren oder Windows-Subsystem für Linux (WSL) aktivieren. Ausführen eines Linux-Desktops mit dem Windows-Subsystem für Linux. Ausführen eines Linux-Desktops mit dem Windows-Subsystem für Linux. Möchten Sie Linux auf Ihrem Windows-PC ausführen? So führen Sie einen Linux-Desktop unter Windows mit dem Windows-Subsystem für Linux aus. Weiterlesen . Auch dann können einige Funktionen funktionieren oder nicht.

Unterstützte Betriebssysteme

ArchiveBox unterstützt offiziell die folgenden Betriebssysteme:

  • macOS: 10.12 Sierra mit Homebrew.
  • Linux: Ubuntu, Debian (mit APT). Die App funktioniert möglicherweise (oder auch nicht) in Distributionen wie Fedora, CentOS, SUSE, Arch und anderen.
  • BSD: FreeBSD, OpenBSD, NetBSD (mit pkg).

Abhängigkeiten

ArchiveBox ist ein flexibles Webarchivierungswerkzeug. Sie müssen die folgenden Abhängigkeiten installieren und die Mindestanforderungen erfüllen.

  • Python 3. Verwenden Sie nicht das mit macOS gelieferte Standard-Python 2.0.
  • Wget 1.16
  • Chromium 59. Wenn Sie bereits Google Chrome verwenden, installieren Sie Chromium nicht.
  • Youtube-dl (Optional): Medienressourcen benötigen viel Speicherplatz. Überlegen Sie genau, bevor Sie Ihre Lesezeichen archivieren.

Richten Sie ArchiveBox ein

Es gibt zwei Möglichkeiten, ArchiveBox einzurichten: Automatisch und Manuell .

Bei der automatischen Methode installiert ein Hilfsskript die App und ihre Abhängigkeiten. Sie können das Problem jedoch nicht beheben, wenn ein Fehler auftritt. Es ist besser, die App manuell zu installieren.

Zu Demonstrationszwecken verwenden wir macOS 10.14.6.

Abhängigkeiten installieren

Die beste Möglichkeit, Abhängigkeiten zu installieren, ist ein Paketmanager namens Homebrew. In diesem Artikel erfahren Sie, wie Sie Mac-Apps mit Homebrew installieren.

Öffnen Sie das Terminal und geben Sie es ein

 brew install python3 git wget curl youtube-dl 
 brew cask install chromium 

(Überspringen Sie dies, wenn Sie bereits Google Chrome / Chromium in den Anwendungen installiert haben.)

Überprüfen Sie die Versionsnummer aller Abhängigkeiten

Geben Sie ein, um die Versionsnummer aller Abhängigkeiten zu überprüfen

 dependency app --version 

(Ersetzen Sie die Abhängigkeits-App durch python3, wget, youtube-dl und mehr.)

Überprüfen Sie die Version aller Abhängigkeiten

Laden Sie Ihre Lesezeichen-Exportdatei herunter

Alle später lesbaren Dienste und Browser können Ihre Lesezeichen als HTML-Datei exportieren. Befolgen Sie die Anweisungen in diesem Artikel zum Exportieren von Lesezeichen aus Ihrem Browser. Migrieren von Lesezeichen zwischen Chrome, Firefox und / oder Edge Migrieren von Lesezeichen zwischen Chrome, Firefox und / oder Edge Sie möchten Ihre Lesezeichen in einen neuen Browser übertragen oder Sichern Sie sie zur sicheren Aufbewahrung? Hier erfahren Sie, wie Sie dies in Chrome, Firefox und Edge tun. Weiterlesen . Sie können auch einen einzelnen Link oder die Liste der URLs in einer Textdatei speichern.

Installieren Sie ArchiveBox

Klonen Sie das Repo vom GitHub. Öffnen Sie das Terminal und geben Sie es ein

 git clone https://github.com/pirate/ArchiveBox 

Dann,

 cd ArchiveBox/ 

Wenn Sie dieses Repo klonen, erstellt das Installationsprogramm einen ArchiveBox-Ordner in Ihrem Home-Verzeichnis. Dieser Ordner enthält alle Hauptanwendungs- und Konfigurationsdateien.

Installieren Sie ArchiveBox

Fügen Sie Ihre URL zum Archiv hinzu

Wenn Sie einen einzelnen Link archivieren möchten, geben Sie ein

 echo 'https://example.com'| ./archive 

Archivierung eines einzelnen Links

Navigieren Sie zu Ihrem ArchiveBox-Ordner, um den neu erstellten Ausgabeordner anzuzeigen. Hier sehen Sie eine index.html-Datei.

ArchiveBox-Ausgabeordner

Hinzufügen mehrerer Links zum Archiv

Wenn Sie mehrere Links (Dutzende oder mehr) speichern möchten, ist es besser, Ihre Links zu einer Textdatei hinzuzufügen. Die App analysiert die URLs in der Datei und archiviert sie. Öffnen Sie das Terminal und geben Sie es ein

 ./archive [Path to Your File.txt] 

Befindet sich Ihre Datei im Ordner " Downloads ", sieht Ihr Pfad folgendermaßen aus

 ./archive /Users/(Home directory name)/Downloads/links.txt 

Warten Sie einige Minuten / Stunden, um den Vorgang abzuschließen. Um auf Ihr Archiv zuzugreifen, öffnen Sie die Datei output / index.html in Ihrem Browser. Sie können nach Spalte sortieren, den Titel über das Feld oben rechts suchen und die Gesamtzahl der Links unten sehen.

Archivierte Links über ArchiveBox

Klicken Sie auf das Favicon in der Spalte " Dateien", um die Detailseite aufzurufen. Sie finden im Screenshot Links zu den einzelnen Dateiformaten. Der gleiche Link wird auch auf archive.org hochgeladen.

Detailseite jedes archivierten Links

Auf die gleiche Weise exportieren Sie Ihre Instapaper- oder Pocket-Links als HTML-Datei. Dann tippe ein

 ./archive ~/Downloads/instapaper-export.html 

Sie können auch eine Liste von Links aus der Feed-URL importieren. Denken Sie jedoch daran, dass möglicherweise zu viele Fehler oder Sitzungs-Timeouts auftreten. Wenn es Tausende von URLs gibt, ist es besser, sie in kleinere Dateien zu unterteilen, um die Erfolgsrate zu erhöhen.

Konfigurieren Sie die ArchiveBox

Die Standardeinstellungen funktionieren in den meisten Fällen, aber es gibt bestimmte wichtige Parameter, die Sie anpassen können, um mehr Funktionen zu erhalten. Die Konfigurationsdatei lebt in

 ~/ArchiveBox/etc/ArchiveBox.conf.default 

Hinweis: Ändern Sie diese Datei nicht, da sie gelöscht wird, wenn Sie die App aktualisieren. Geben Sie zum Erstellen einer dauerhaften Konfigurationsdatei Folgendes ein

 cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf 

Der Befehl cp erstellt eine Kopie der Konfigurationsdatei in Ihrem Ausgangsverzeichnis. Standardmäßig ist die Datei in Ihrem Verzeichnis nicht sichtbar. Zum Einblenden drücken Sie Befehlstaste + Umschalttaste + Punkt. Öffnen Sie die Konfigurationsdatei in TextEdit.

Kopie der ArchiveBox-Konfigurationsdatei

Parameter

ArchiveBox bietet Ihnen viele Möglichkeiten. Hier sind einige wichtige;

  • ONLY_NEW : Setzen Sie diesen Wert auf True, um das Archiv für neu hinzugefügte Links herunterzuladen. Nützlich, wenn Sie regelmäßig Links bookmarken.
  • TIMEOUT : Mögliche Werte sind 60 oder 120 Sekunden. Wenn Sie häufige Zeitüberschreitungsfehler sehen, erhöhen Sie diese auf 120 Sekunden.
  • URL_BLACKLIST : Sie können einen regulären Ausdruck verwenden, um bestimmte Domänen, Erweiterungen oder URL-Muster aus dem Archiv auszuschließen.
  • FETCH_MEDIA : Holt alle Audio- und Videodateien mit youtube-dl. Setzen Sie dies nur dann auf True, wenn Sie über genügend Speicher verfügen.
  • WGET_USER_AGENT : Verwenden Sie diese Option, um den Benutzeragenten während der Archivierung zu ändern. Wenn Sie von bestimmten Servern blockiert werden, ist diese Option hilfreich.

Weitere Informationen zu den Konfigurationsdetails finden Sie in der ArchiveBox-Konfiguration.

Veröffentlichen Sie Ihr Archiv

Das von ArchiveBox erstellte Archiv ist mit allen Anbietern kompatibel, die statisches HTML hosten können. Zum Beispiel GitHub-Seiten.

Sie können es auch von einem Heimserver oder VPS aus bereitstellen, indem Sie den Ausgabeordner direkt in Ihr Webverzeichnis hochladen.

Stellen Sie sicher, dass Sie keine Inhalte als CGI oder PHP ausführen. Sie möchten nur statische HTML-Dateien hosten.

Das Hosten Ihres Archivs hat Vor- und Nachteile. Wenn Sie Links von zufälligen Websites herunterladen, müssen Sie die Gefahren des Hostens von schädlichen CSS- und JS-Dateien in Ihrer freigegebenen Domäne kennen. Sie können auch Ihre Archive in der robots.txt-Datei auf eine schwarze Liste setzen, um privat zu bleiben.

Laden Sie ganze Websites offline herunter

Die Webarchivierung hat in den letzten Jahren Aufmerksamkeit erregt. Sie zeichnen den gesamten Inhalt einer Webseite auf, einschließlich Quell-HTML, eingebetteten Bildern, Stylesheets und JavaScript-Code. ArchiveBox fügt sich direkt in die breite Kategorie der Webarchivierungs-Tools und -Dienste ein.

Wenn Sie mit Instapaper oder Pocket frustriert sind, ist ArchiveBox eine hervorragende Alternative. Abgesehen von Webartikeln möchten Sie möglicherweise ganze Websites archivieren, um offline auf sie zuzugreifen oder ihr Wissen zu bewahren. Wenn Sie dies interessiert, lesen Sie diesen Artikel darüber, wie Sie eine Website zum Offline-Lesen herunterladen können. So laden Sie eine gesamte Website zum Offline-Lesen herunter So laden Sie eine gesamte Website zum Offline-Lesen herunter So können Sie ganze Websites zum Offline-Lesen herunterladen, damit Sie selbst Zugriff haben wenn Sie kein Wi-Fi oder 4G haben. Weiterlesen .

Erfahren Sie mehr über: Instapaper, Online-Lesezeichen, Open Source, Pocket, The Internet Archive.