Cookies beim Scraping

Cookies beim Scraping speichern cover

Cookies beim Scraping speichern und wiederverwenden – so klappt’s

 

Ausgangspunkt

Bei manchen Webseiten reicht es nicht, nur einen guten User-Agent zu setzen. Sie erwarten, dass du beim zweiten Aufruf schon eine Session mit Cookies hast – z. B. um Login-Status, Sprache, Consent oder Captcha-Token zu erkennen. Ohne Cookies gibt’s dann: Weiterleitung, Block oder kaputte Inhalte.

Ziel: Cookies beim ersten Aufruf speichern und bei weiteren Requests wiederverwenden – manuell oder automatisch.

⚙️ Setup mit httpx

Ich nutze httpx, weil es Session-Handling eingebaut hat. Alternativ geht auch requests.Session, aber httpx ist performanter.

Cookies automatisch verwalten

import httpx

session = httpx.Client()

# Erster Request – Cookies werden gespeichert
r1 = session.get("https://zielseite.de/")

# Zweiter Request – Cookies werden automatisch mitgeschickt
r2 = session.get("https://zielseite.de/profil")

Cookies speichern & laden

Manchmal willst du Cookies auch speichern (z. B. nach Login) und später wiederverwenden. Beispiel mit JSON-Datei:

1. Cookies speichern

import json

with open("cookies.json", "w") as f:
    json.dump(session.cookies.jar, f)

2. Cookies laden

with open("cookies.json", "r") as f:
    cookies = httpx.Cookies(json.load(f))

session = httpx.Client(cookies=cookies)

Wie kommt man an Cookies aus dem Browser?

Wenn du manuell eingeloggt bist und dieselben Cookies im Script brauchst:

  1. Browser öffnen → F12 → DevTools
  2. Zum Tab „Application“ wechseln → „Cookies“
  3. Alle relevanten Cookies kopieren (z. B. session_id, auth, cf_clearance)
  4. Im Code als Header setzen oder als Cookie-Objekt übergeben

Wann hilft Cookie-Reuse?

  • Seiten mit Cookie-basiertem Consent
  • Login-Sessions (mit Ablaufzeit!)
  • Cloudflare-Pages mit cf_clearance
  • Multistep-Navigation, die Session braucht

⚠️ Was du vermeiden solltest

  • Abgelaufene Cookies verwenden → Redirect-Loop
  • Cookies von fremden Sessions „klauen“ → klappt nur kurz
  • Cookies mit Proxy-IP mischen → passt oft nicht zusammen

Fazit

Cookies sind mehr als nur „Webseiten-Keks“ – sie helfen beim Scraping, die gleiche Session beizubehalten und Blockaden zu umgehen. Wer sie gezielt speichert und wiederverwendet, spart sich viele Probleme mit Logins, Captchas und Umleitungen.

Getestet mit httpx in Python, Stand 04/2025.

Mein Name ist Kadek und ich bin ein Student aus Indonesien und studiere derzeit Informatik in Deutschland. Dieser Blog dient als Plattform, auf der ich mein Wissen zu Themen wie Web Scraping, Screen Scraping, Web Data Mining, Web Harvesting, Web Data Extraction und Web Data Parsing teilen kann.