Cookie saat mengikis

Simpan cookie saat mengikis penutup

Menyimpan dan menggunakan kembali cookie saat melakukan scraping – begini cara kerjanya

 

Titik awal

Untuk beberapa situs web, tidak cukup hanya menetapkan agen pengguna yang baik. Mereka mengharapkan Anda sudah memiliki sesi dengan cookie pada kunjungan kedua Anda – misalnya untuk mengenali status login, bahasa, persetujuan atau token captcha. Tanpa cookie, Anda akan mendapatkan pengalihan, pemblokiran, atau konten yang rusak.

Sasaran: Menyimpan cookie pada panggilan pertama dan menggunakannya kembali pada permintaan berikutnya – secara manual atau otomatis.

⚙️ Pengaturan dengan httpx

saya menggunakan httpxkarena memiliki penanganan sesi bawaan. Atau, requests.Session, tetapi httpx memiliki kinerja lebih baik.

Kelola cookie secara otomatis

import httpx

session = httpx.Client()

# Erster Request – Cookies werden gespeichert
r1 = session.get("https://zielseite.de/")

# Zweiter Request – Cookies werden automatisch mitgeschickt
r2 = session.get("https://zielseite.de/profil")

Simpan & muat cookie

Terkadang Anda juga ingin menyimpan cookie (misalnya setelah masuk) dan menggunakannya kembali nanti. Contoh dengan file JSON:

1. Simpan cookie

import json

with open("cookies.json", "w") as f:
    json.dump(session.cookies.jar, f)

2. Muat cookie

with open("cookies.json", "r") as f:
    cookies = httpx.Cookies(json.load(f))

session = httpx.Client(cookies=cookies)

Bagaimana cara Anda mendapatkan cookie dari peramban Anda?

Jika Anda masuk secara manual dan memerlukan cookie yang sama dalam skrip:

  1. Buka browser → F12 → DevTools
  2. Beralih ke tab “Aplikasi” → “Cookies”
  3. Salin semua cookie yang relevan (mis. session_id, auth, cf_clearance)
  4. Tetapkan sebagai header dalam kode atau lewati sebagai objek cookie

Kapan penggunaan kembali cookie membantu?

  • Halaman dengan persetujuan berbasis cookie
  • Sesi login (dengan waktu kedaluwarsa!)
  • Halaman Cloudflare dengan cf_clearance
  • Navigasi multi langkah yang memerlukan sesi

⚠️ Apa yang harus dihindari

  • Gunakan cookie yang telah kedaluwarsa → Pengalihan loop
  • “Mencuri” cookie dari sesi orang lain → hanya berfungsi untuk waktu yang singkat
  • Mencampur cookie dengan IP proxy → sering tidak cocok

Kesimpulan

Cookie lebih dari sekadar “cookie situs web” – cookie membantu pengikisan, mempertahankan sesi yang sama, dan melewati pemblokiran. Jika Anda menyimpan dan menggunakannya kembali, Anda dapat menghindari banyak masalah dengan login, captcha, dan pengalihan.

Diuji dengan httpx di Python, per 04/2025.

Nama saya Kadek dan saya seorang pelajar dari Indonesia dan sedang belajar ilmu komputer di Jerman. Blog ini berfungsi sebagai platform di mana saya dapat berbagi pengetahuan tentang topik-topik seperti web scraping, screen scraping, penambangan data web, pengumpulan web, ekstraksi data web, dan penguraian data web.