Agen pengguna dalam scraping

Agen pengguna seluler untuk mengikis penutup

Agen pengguna seluler dalam scraping – mengapa mereka sering bekerja lebih baik

 

Titik awal

Di beberapa situs web, permintaan saya secara berkala dialihkan atau saya menerima HTML yang dimodifikasi secara signifikan. Penyebab: Agen pengguna yang digunakan adalah string desktop klasik. Banyak situs web modern kini menyajikan konten berbeda tergantung pada jenis perangkat.

Saya ingin menguji bagaimana Agen pengguna seluler berperilaku saat melakukan scraping – dan apakah mereka menghindari penyumbatan atau bahkan menyediakan data yang lebih baik.

Apa itu agen pengguna seluler?

Ini adalah User-Agent-Header telepon pintar biasa. Ini memberi sinyal ke server bahwa ini adalah browser seluler – misalnya Misalnya. perangkat iPhone atau Android.

Mozilla/5.0 (iPhone; CPU iPhone OS 15_5 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.5 Mobile/15E148 Safari/604.1

Keuntungan agen pengguna seluler

  • Sering lebih sedikit JavaScript dimuat – DOM lebih ramping
  • Konten sering kali langsung terlihat – tanpa menunggu JS
  • Beberapa halaman memiliki tidak ada atau perlindungan bot lebih lemah di frontend seluler
  • Mengurangi lalu lintas – berguna untuk proxy yang lambat

Contoh: Mengubah agen pengguna ke httpx

import httpx

headers = {
    "User-Agent": "Mozilla/5.0 (Linux; Android 11; SM-G991B) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0 Mobile Safari/537.36",
    "Accept-Language": "de-DE,de;q=0.9",
}

r = httpx.get("https://zielseite.de", headers=headers)
print(r.text[:500])

Perbedaan dalam DOM

Dibandingkan dengan versi desktop:

  • Lebih sedikit iklan & skrip pelacakan
  • Navigasi yang sering disederhanakan (hanya konten yang relevan)
  • Beberapa konten langsung dalam HTML, bukan dimuat secara dinamis

Kapan sebaiknya digunakan?

  • Jika halaman terlihat “kosong” dalam mode desktop
  • Untuk rintangan Captcha atau JavaScript
  • Untuk perbandingan harga, analisis TikTok / Instagram, halaman dengan AMP

⚠️ Catatan

  • Beberapa situs memblokir UA seluler → selalu uji keduanya
  • Mobile DOM ≠ Desktop DOM → Kustomisasi pemilih XPath/CSS
  • Jika Anda menggunakan UA seluler, maka juga header seperti Accept & Viewport pikirkan bersama

Kesimpulan

Beralih ke agen pengguna seluler dapat membuat perbedaan nyata dalam pengikisan – lebih sedikit blok, konten lebih baik, lebih sedikit usaha. Uji kedua varian dan gunakan yang terbaik.

Diuji pada April 2025 dengan httpx dan situs nyata.

Nama saya Kadek dan saya seorang pelajar dari Indonesia dan sedang belajar ilmu komputer di Jerman. Blog ini berfungsi sebagai platform di mana saya dapat berbagi pengetahuan tentang topik-topik seperti web scraping, screen scraping, penambangan data web, pengumpulan web, ekstraksi data web, dan penguraian data web.