Agen pengguna seluler dalam scraping – mengapa mereka sering bekerja lebih baik
Titik awal
Di beberapa situs web, permintaan saya secara berkala dialihkan atau saya menerima HTML yang dimodifikasi secara signifikan. Penyebab: Agen pengguna yang digunakan adalah string desktop klasik. Banyak situs web modern kini menyajikan konten berbeda tergantung pada jenis perangkat.
Saya ingin menguji bagaimana Agen pengguna seluler berperilaku saat melakukan scraping – dan apakah mereka menghindari penyumbatan atau bahkan menyediakan data yang lebih baik.
Apa itu agen pengguna seluler?
Ini adalah User-Agent
-Header telepon pintar biasa. Ini memberi sinyal ke server bahwa ini adalah browser seluler – misalnya Misalnya. perangkat iPhone atau Android.
Mozilla/5.0 (iPhone; CPU iPhone OS 15_5 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.5 Mobile/15E148 Safari/604.1
Keuntungan agen pengguna seluler
- Sering lebih sedikit JavaScript dimuat – DOM lebih ramping
- Konten sering kali langsung terlihat – tanpa menunggu JS
- Beberapa halaman memiliki tidak ada atau perlindungan bot lebih lemah di frontend seluler
- Mengurangi lalu lintas – berguna untuk proxy yang lambat
Contoh: Mengubah agen pengguna ke httpx
import httpx headers = { "User-Agent": "Mozilla/5.0 (Linux; Android 11; SM-G991B) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0 Mobile Safari/537.36", "Accept-Language": "de-DE,de;q=0.9", } r = httpx.get("https://zielseite.de", headers=headers) print(r.text[:500])
Perbedaan dalam DOM
Dibandingkan dengan versi desktop:
- Lebih sedikit iklan & skrip pelacakan
- Navigasi yang sering disederhanakan (hanya konten yang relevan)
- Beberapa konten langsung dalam HTML, bukan dimuat secara dinamis
Kapan sebaiknya digunakan?
- Jika halaman terlihat “kosong” dalam mode desktop
- Untuk rintangan Captcha atau JavaScript
- Untuk perbandingan harga, analisis TikTok / Instagram, halaman dengan AMP
⚠️ Catatan
- Beberapa situs memblokir UA seluler → selalu uji keduanya
- Mobile DOM ≠ Desktop DOM → Kustomisasi pemilih XPath/CSS
- Jika Anda menggunakan UA seluler, maka juga header seperti
Accept
&Viewport
pikirkan bersama
Kesimpulan
Beralih ke agen pengguna seluler dapat membuat perbedaan nyata dalam pengikisan – lebih sedikit blok, konten lebih baik, lebih sedikit usaha. Uji kedua varian dan gunakan yang terbaik.
Diuji pada April 2025 dengan httpx dan situs nyata.