Cara Membuat Arsip Web Dengan Archivebox

Archivebox adalah program pengarsipan yang mudah digunakan yang memungkinkan Anda membuat snapshot akurat dari situs web apa pun. Ini dapat bermanfaat bagi pengarsip dan pengguna yang ingin menyimpan informasi secara online. Tidak hanya itu, Archivebox juga sangat sederhana dan mudah digunakan. Misalnya, Anda dapat menjalankan program baik sebagai alat baris perintah maupun sebagai aplikasi web yang dapat Anda akses di mana saja.

Mengapa Anda Harus Mengarsipkan Situs Web?

Selama bertahun-tahun, World Wide Web memungkinkan individu di seluruh dunia untuk berbagi dan berkomunikasi informasi dengan mudah satu sama lain. Namun, satu masalah dengan Web adalah bahwa situs web tidak bertahan lama.

Sumber GBImage: web.archive.org

Sebagian besar situs web hanya aktif selama sekitar dua hingga lima tahun. Setelah itu, mereka menjadi offline sepenuhnya atau digantikan oleh situs web yang berbeda sama sekali. Misalnya, hanya ada sedikit atau tidak ada situs web dari tahun 1990-an yang masih online hingga saat ini.

Sumber GBImage: cameronsworld.net

Sebagai alternatif, Anda juga dapat menggunakan mesin WayBack untuk mengarsipkan situs web – tidak perlu instalasi.

Persyaratan Kotak Arsip

Sebelum Anda dapat menginstal Archivebox, Anda perlu memastikan bahwa Anda memiliki sumber daya berikut:

  • Sebuah mesin yang dapat Anda akses dari luar jaringan rumah Anda. Ini bisa berupa mesin di rumah yang dapat Anda port-forward atau VPS jarak jauh yang disewa.
  • Mesin Anda perlu memiliki jumlah ruang penyimpanan yang memadai. Dalam kebanyakan kasus, disk 1 TB seharusnya dapat menyimpan antara 100.000 hingga 1.000.000 halaman web individual.
  • Sistem file mesin Anda harus EXT4 atau ZFS agar Archivebox berfungsi dengan benar.

Catatan : tutorial ini berfokus pada penginstalan dan konfigurasi Archivebox di mesin lokal Ubuntu 22.04 LTS.

Memasang Kotak Arsip

Pertama, instal dependensi program. Buka terminal dan ketik perintah berikut:

sudo tepat instal python3 nodejs python3-pip nginx npm npm instal –no-audit –tidak ada dana ‘git+https://github.com/gildas-lormeau/SingleFile.git’ npm instal –no-audit –tidak ada dana ‘git+https://github.com/ArchiveBox/readability-extractor.git’ npm instal –no-audit –tidak ada dana ‘@postlight/mercury-parser’

Instal Archivebox melalui Python PIP:

pip3 instal kotak arsip PATH = $PATH : / home / $USER / .local / bin

Selanjutnya, buat folder tempat Archivebox akan menyimpan semua datanya. Dalam kasus saya, saya membuat direktori saya di direktori “/ home/archivebox” saya:

mkdir / beranda / $USER / abox-data && CD / rumah / $USER / abox-data

Terakhir, Anda dapat menyelesaikan instance Archivebox Anda dengan menjalankan perintah berikut untuk mengunduh dan mengonfigurasi semua tambalan Python yang perlu dijalankan program di mesin Anda.

kotak arsip init –setup

Anda akan dimintai detail pengguna pertama.

Periksa apakah Anda telah menginstal Archivebox dengan benar dengan menjalankan:

kotak arsip –versi

Mempersiapkan GUI Web

Meskipun Archivebox dapat digunakan dengan sempurna sebagai utilitas baris perintah, program ini juga dapat diakses melalui antarmuka web. Ini berguna jika Anda ingin berbagi Archivebox dengan pengguna lain atau mengakses program di luar server Anda.

Untuk menghosting GUI web, Anda perlu membuat proksi balik Nginx untuk mengalihkan semua lalu lintas web yang masuk ke daemon Archivebox.

Buat file konfigurasi Nginx baru:

sudo nano / etc / nginx / situs-tersedia / kotak arsip

Salin dan tempel kode berikut, ubah nama_server menjadi nama domain Anda sendiri:

server {        dengarkan 80 ;        mendengarkan [ :: ] :80 ;          root /home/archivebox/abox-data ;          server_name yetanotherarchivebox.xyz www.yetanotherarchivebox.xyz ;          lokasi / { proxy_pass http://127.0.0.1:8000 ; _        } }

Aktifkan konfigurasi Archivebox:

sudo di -S / etc / nginx / situs-tersedia / archivebox / etc / nginx / situs-diaktifkan /

Mulai ulang Nginx dan mulai daemon Archivebox:

sudo systemctl restart server kotak arsip nginx 0.0.0.0: 8000

Mengarsipkan Situs Web Pertama Anda

Buka browser web Anda dan akses instance Archivebox melalui nama domain Anda. Dalam kasus saya, saya akan pergi ke “yetanotherarchivebox.xyz.”

Klik tombol “LOG IN” di sudut kanan atas halaman web.

Masukkan kredensial pengguna Anda untuk masuk ke utilitas.

Arsipkan situs web pertama Anda dengan menekan tombol “Tambah” di sidebar atas halaman.

Ini akan memuat kotak dialog besar, tempat Anda dapat menambahkan daftar tautan web yang ingin Anda arsipkan. Dalam kasus saya, saya menambahkan “https://maketecheasier.com.”

Selanjutnya, Anda dapat memilih berbagai opsi untuk mengarsipkan situs web Anda. Misalnya, Anda dapat menyediakan satu set tag untuk tautan Anda untuk mengurutkannya dengan benar.

Selanjutnya, Anda dapat memberi tahu Archivebox untuk menyimpan konten tautan langsung apa pun di halaman yang ingin Anda arsipkan. Ini berguna jika Anda ingin mempertahankan konteks situs web.

Klik tombol “Tambahkan URL dan Arsipkan” untuk memulai proses pengarsipan. Dalam kebanyakan kasus, ini hanya membutuhkan waktu antara satu dan dua menit.

Mengarsipkan Situs Web Menggunakan Baris Perintah

Untuk mengarsipkan halaman web dari baris perintah, jalankan perintah berikut:

CD / rumah / $USER / abox-data kotak arsip tambahkan –kedalaman = 1 https: // maketecheasier.com

Selanjutnya, Anda juga dapat menggunakan subperintah add untuk mengarsipkan daftar tautan web. Misalnya, menjalankan perintah berikut akan memberi tahu Archivebox untuk menyimpan setiap tautan di file “bookmarks.txt” saya:

kotak arsip tambahkan < / beranda / $USER / bookmarks.txt

Terakhir, dimungkinkan juga untuk membuat arsip mandiri dari satu halaman web. Untuk melakukannya, jalankan perintah berikut:

kotak arsip oneshot https: // maketecheasier.com

Menyesuaikan Kotak Arsip

Anda juga dapat menyesuaikan cara Archivebox mendapatkan halaman yang disimpannya. Misalnya, Anda hanya dapat menyimpan tangkapan layar dari setiap halaman web yang Anda arsipkan.

Ini bermanfaat bagi pengguna yang ingin menghemat ruang disk saat menyimpan situs web. Untuk menonaktifkan format lain, Anda perlu menjalankan perintah berikut:

konfigurasi kotak arsip –set SAVE_WGET =Konfigurasi kotak arsip palsu –set SAVE_WARC =Konfigurasi kotak arsip palsu –set SAVE_PDF =Konfigurasi kotak arsip palsu –set SAVE_SINGLEFILE =Konfigurasi kotak arsip palsu –set SAVE_READABILITY =Konfigurasi kotak arsip palsu –set SAVE_MERCURY =Salah

Menambahkan Pengguna Baru di Kotak Arsip

Untuk menambahkan pengguna baru, kembali ke GUI web dan klik tombol “ADMIN” di bilah atas halaman.

Begitu berada di dalam Panel Admin, buka kategori “Otentikasi dan Otorisasi” dan pilih “Pengguna”.

Ini akan mencantumkan semua pengguna aktif dalam sistem. Pilih tombol “Tambah Pengguna +” di pojok kanan atas halaman.

Mirip dengan menambahkan pengguna ke grup Linux, proses pembuatan pengguna di Archivebox bisa menjadi rumit. Meskipun demikian, pengguna baru hanya membutuhkan tiga hal untuk berfungsi dengan baik: nama pengguna, kata sandi, dan sekumpulan izin pengguna.

Untuk membuat pengguna baru, berikan kata sandi terlebih dahulu.

Setelah itu, pilih izin pengguna untuk pengguna tersebut. Dalam kebanyakan kasus, Anda hanya perlu mengaktifkan opsi berikut untuk pengguna biasa:

inti | hasil arsip | Dapat menambahkan inti hasil arsip | hasil arsip | Dapat mengubah inti hasil arsip | hasil arsip | Dapat melihat inti hasil arsip | cuplikan | Dapat menambahkan inti snapshot | cuplikan | Dapat mengubah inti snapshot | cuplikan | Dapat melihat inti snapshot |
menandai | Dapat menambahkan inti Tag | menandai | Dapat mengubah inti Tag | menandai | Dapat melihat sesi Tag | sesi | Dapat menambahkan sesi sesi | sesi | Dapat mengubah sesi sesi | sesi | Dapat melihat sesi

Berikan nama pengguna untuk akun pengguna baru. Dalam kasus saya, saya menggunakan nama “alice.”

Terakhir, pilih tombol “SIMPAN” di pojok kanan bawah halaman untuk menerapkan perubahan Anda.

Pertanyaan yang Sering Diajukan

Bagaimana saya bisa mengatasi kesalahan “Gagal menginstal paket Python”?

Ini terjadi karena bug di Archivebox yang mencegahnya menemukan binari yang dicarinya. Meskipun demikian, kesalahan ini hanya memengaruhi sebagian kecil program dan tidak akan merusak integritas arsip Anda.

Salah satu cara untuk mengurangi masalah ini adalah dengan memastikan bahwa instalasi Anda selalu mutakhir. Lakukan itu dengan menjalankan pip3 install –upgrade archivebox .

Bagaimana cara memperbaiki kesalahan “HTTPSConnectionPool” setiap kali saya menyimpan situs web?

Kesalahan ini terjadi setiap kali situs web tidak memiliki versi HTTPS yang valid. Perbaiki masalah ini dengan memaksa Archivebox untuk mengarsipkan melalui HTTP. Misalnya, menjalankan archivebox add http://insecurewebsite.com akan memaksa program untuk menggunakan HTTP.

Apa yang dapat saya lakukan jika akun pengguna baru saya tidak dapat mengarsipkan situs web?

Masalah ini kemungkinan besar disebabkan oleh pengaturan izin yang hilang di akun pengguna baru Anda. Salah satu cara untuk memperbaiki masalah ini dengan cepat adalah dengan memastikan akun pengguna baru Anda memiliki inti | cuplikan | Dapat menambahkan izin snapshot .

Kredit gambar: Hapus percikan. Semua perubahan dan tangkapan layar oleh Ramces Red.

Related Posts

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *