Menyimpan dan menggunakan kembali cookie saat melakukan scraping – begini cara kerjanya
Titik awal
Untuk beberapa situs web, tidak cukup hanya menetapkan agen pengguna yang baik. Mereka mengharapkan Anda sudah memiliki sesi dengan cookie pada kunjungan kedua Anda – misalnya untuk mengenali status login, bahasa, persetujuan atau token captcha. Tanpa cookie, Anda akan mendapatkan pengalihan, pemblokiran, atau konten yang rusak.
Sasaran: Menyimpan cookie pada panggilan pertama dan menggunakannya kembali pada permintaan berikutnya – secara manual atau otomatis.
⚙️ Pengaturan dengan httpx
saya menggunakan httpx
karena memiliki penanganan sesi bawaan. Atau, requests.Session
, tetapi httpx memiliki kinerja lebih baik.
Kelola cookie secara otomatis
import httpx session = httpx.Client() # Erster Request – Cookies werden gespeichert r1 = session.get("https://zielseite.de/") # Zweiter Request – Cookies werden automatisch mitgeschickt r2 = session.get("https://zielseite.de/profil")
Simpan & muat cookie
Terkadang Anda juga ingin menyimpan cookie (misalnya setelah masuk) dan menggunakannya kembali nanti. Contoh dengan file JSON:
1. Simpan cookie
import json with open("cookies.json", "w") as f: json.dump(session.cookies.jar, f)
2. Muat cookie
with open("cookies.json", "r") as f: cookies = httpx.Cookies(json.load(f)) session = httpx.Client(cookies=cookies)
Bagaimana cara Anda mendapatkan cookie dari peramban Anda?
Jika Anda masuk secara manual dan memerlukan cookie yang sama dalam skrip:
- Buka browser → F12 → DevTools
- Beralih ke tab “Aplikasi” → “Cookies”
- Salin semua cookie yang relevan (mis.
session_id
,auth
,cf_clearance
) - Tetapkan sebagai header dalam kode atau lewati sebagai objek cookie
Kapan penggunaan kembali cookie membantu?
- Halaman dengan persetujuan berbasis cookie
- Sesi login (dengan waktu kedaluwarsa!)
- Halaman Cloudflare dengan
cf_clearance
- Navigasi multi langkah yang memerlukan sesi
⚠️ Apa yang harus dihindari
- Gunakan cookie yang telah kedaluwarsa → Pengalihan loop
- “Mencuri” cookie dari sesi orang lain → hanya berfungsi untuk waktu yang singkat
- Mencampur cookie dengan IP proxy → sering tidak cocok
Kesimpulan
Cookie lebih dari sekadar “cookie situs web” – cookie membantu pengikisan, mempertahankan sesi yang sama, dan melewati pemblokiran. Jika Anda menyimpan dan menggunakannya kembali, Anda dapat menghindari banyak masalah dengan login, captcha, dan pengalihan.
Diuji dengan httpx di Python, per 04/2025.