Beranda BlogPengikisan web Legalitas Web Scraping – Suatu Tinjauan

Legalitas Web Scraping – Suatu Tinjauan

oleh Kadek
Legalitas web scraping

Sejak penemuan World Wide Web Pengikisan web salah satu aspek terpentingnya. Hal ini memungkinkan mesin pencari mengumpulkan dan menampilkan ratusan ribu hasil secara instan, dan ini memungkinkan bisnis membangun database, mengembangkan strategi pemasaran, menghasilkan prospek, dan sebagainya.

Meskipun potensinya sangat besar, ada juga kekhawatiran mengenai legalitas web scraping. Berkat beberapa kasus penting (yang akan kita bahas nanti di artikel ini) dan beberapa masalah umum: “Is Pengikisan web legal?” adalah salah satu pertanyaan yang paling sering ditanyakan. Jawabannya? Itu tergantung – setiap kasus penggunaan.

Bagi penyedia SaaS dan DAAS serta perusahaan berbasis data, penting untuk memiliki pemahaman yang jelas tentang semua aspek web scraping. Dalam posting ini kita melihatnya aspek hukum dan mencoba memberi Anda gambaran tentang:

Kesalahpahaman umum

Kepercayaan umum adalah bahwa semua yang Anda lihat online dapat dihapus dan digunakan kembali secara gratis. Ini mungkin kesalahpahaman terbesar mengenai web scraping dan dapat menyebabkan individu atau bisnis mana pun mengalami masalah hukum.

Pertanyaan tentang legalitas web scraping tidaklah hitam dan putih seperti yang dibayangkan – ada juga sisi etika yang perlu Anda waspadai dan waspadai. Mengetahui jenis data apa yang legal, ilegal, atau di antara keduanya akan membantu Anda mengambil keputusan dan membantu Anda menghindari konsekuensi yang tidak diinginkan dan tidak perlu.

Hal-hal yang perlu dipertimbangkan

Ada beberapa hal yang perlu dipertimbangkan sebelum dan sesudah pengikisan data.

Jenis data

Dalam kebanyakan kasus Tingkat kemudahan Apa yang membuat data web dapat diakses sedikit banyak menentukan di mana data tersebut berada dalam spektrum legalitas.

Data publik

Mengikis data dari situs web publik adalah sepenuhnya sah. Ini adalah data dan informasi di situs web yang dikumpulkan tanpa registrasi atau otentikasi. Beberapa contoh situs web tersebut adalah platform e-commerce seperti Amazon dan BestBuy.

Meskipun sumber data ini mungkin berupaya melindungi informasi publik dengan menempatkan berbagai penghalang di jalur scraper dan crawler, namun mengekstrak titik data dari sumber data tersebut tidak masalah.

Informasi pribadi atau pribadi

Data apa saja yang dapat mengungkap identitas seseorang, seperti: Beberapa informasi pribadi, seperti nama, alamat, tanggal lahir, informasi medis dan keuangan, serta informasi kontak, disebut sebagai Informasi Identifikasi Pribadi atau PII.

Secara umum, menghapus data pribadi tanpa persetujuan orang tersebut atau tanpa dasar hukum adalah tindakan ilegal. UE dan California saat ini memiliki undang-undang yang paling ketat dalam hal ini.

Data Berhak Cipta

Menghapus data yang tersedia untuk umum seperti gambar, lagu, artikel, dll. yang merupakan kekayaan intelektual perusahaan atau individu adalah tindakan ilegal. Karena pemiliknya memiliki kendali penuh atas penggunaan dan reproduksinya, pengikis memerlukan izin eksplisit untuk ekstraksi. Untuk mengatasi masalah ini, Anda dapat menggunakan kutipan data atau mengidentifikasi dan mengutip sumber yang menggunakan data tersebut.

Ketentuan Penggunaan (ToS) Situs Web

Sebelum mencari data di suatu situs web, seseorang harus memahami kebijakan apa yang berlaku untuk mengakses datanya. Jika mereka secara eksplisit memuat batasan scraping, dapat diasumsikan bahwa scraping merupakan pelanggaran terhadap persyaratan layanan mereka. Meskipun tidak ada pedoman seperti itu, Anda harus menyadari bahwa kontennya mungkin masih dilindungi hak cipta.

Gores di belakang langganan atau login

Layanan seperti LinkedIn mengharuskan pengguna untuk memiliki akun sebelum data terlihat. Saat Anda mendaftar ke layanan ini, Anda hampir selalu menyetujui syarat dan ketentuannya, yang melarang pengambilan data Anda.

Karena bot dan perayap pengikis menggunakan kredensial akun Anda untuk mendapatkan akses ke data, penyedia layanan dapat dengan mudah mengidentifikasi Anda dan melarang Anda sepenuhnya dari platform mereka. Oleh karena itu, disarankan untuk menghindari opsi ini dan mencoba mencari data yang tersedia untuk umum.


Perundang-undangan saat ini

Karena saat ini tidak ada undang-undang yang jelas yang mengatur legalitas atau cara lain dari web scraping, tuntutan hukum ditangani berdasarkan kasus per kasus. Namun, itu benar Peraturan Perlindungan Data Umum (GDPR) dan itu Undang-Undang Perlindungan Data AS disebutkan dalam banyak kasus di Eropa atau Amerika.

Legalitas web scrapingLegalitas web scraping
Mahkamah Agung AS

GDPR

GDPR mulai berlaku pada Mei 2018 dan melindungi data pribadi individu di Wilayah Ekonomi Eropa (EEA). Beberapa contoh informasi pribadi mencakup nama, alamat email, nomor telepon, tanggal lahir, alamat IP, informasi kartu kredit dan perbankan, rekam medis, dan konten multimedia seperti foto, audio, dan video.

GDPR mengklasifikasikan perlindungan data pribadi sebagai “hak mendasar”. Oleh karena itu, pemrosesan data pribadi dilarang kecuali jika didasarkan pada salah satu dari enam dasar hukum – persetujuan, kontrak, tugas publik, kepentingan vital, kepentingan sah, atau persyaratan hukum. Jika pemrosesan didasarkan pada persetujuan, subjek data berhak menariknya kapan saja.

Selain itu, pengontrol data harus secara jelas mengungkapkan pengumpulan data apa pun, menentukan dasar hukum dan tujuan, berapa lama data akan disimpan, dan apakah data tersebut dapat dibagikan kepada pihak ketiga atau di luar EEA.

Undang-Undang Perlindungan Data AS

Meskipun tidak ada satu pun peraturan federal di AS yang mengatur privasi dan perlindungan data seperti di UE, terdapat beberapa undang-undang khusus industri, seperti: GLBA untuk keuangan, HIPAA untuk kesehatan dan KOPA untuk data anak-anak.

Namun, pada tahun 2020, California mengesahkan undang-undang negara bagian – ini Undang-Undang Perlindungan Konsumen California (CCPA) – yang mewajibkan perusahaan yang mengumpulkan data pribadi untuk mengungkapkan secara eksplisit bagaimana mereka berencana menggunakan data tersebut dan juga mengizinkan konsumen untuk menghapus datanya atau memilih tidak ikut pengumpulan data. Aturan yang sama juga berlaku untuk perusahaan pengikisan data.

Perbandingan

GDPR dan CCPA memungkinkan konsumen mengakses, menghapus, dan memilih untuk tidak menerima data pribadi mereka kapan saja. Namun, pengguna dapat mengedit datanya berdasarkan GDPR, namun tidak berdasarkan CCPA. Demikian pula, CCPA hanya mewajibkan pemberitahuan privasi di situs web, sedangkan GDPR mewajibkan persetujuan pengguna secara eksplisit.


Masalah hukum yang umum

Berikut adalah beberapa pelanggaran dan masalah paling umum yang terkait dengan web scraping.

server dataserver data
Mengirimkan permintaan yang sering ke server web akan mengganggu situs web dan mengurangi kinerjanya.

pelanggaran hak cipta

Seperti disebutkan di atas, meskipun mengambil data yang tersedia untuk umum mungkin sah, mungkin ada batasan dan konsekuensi hukum tertentu jika data tersebut memiliki hak cipta. Publikasi atau penggunaan data ini untuk tujuan komersial tidak diperbolehkan selama kerangka hukum dipatuhi.

Pelanggaran apa pun terhadap data berhak cipta adalah kejahatan, terlepas dari cara Anda mengakses dan mengumpulkan data.

Pelanggaran UU Penipuan dan Penyalahgunaan Komputer

CFAA disahkan pada tahun 1984 untuk melarang semua akses tidak sah ke komputer dan jaringan. Awalnya dirancang untuk melindungi data militer, keuangan, dan data sensitif lainnya, kini telah diperluas untuk mencakup semua informasi pribadi.

CFAA tidak berlaku untuk perayap web dan teknik pengikisan yang hanya mengakses informasi yang tersedia untuk umum.

Campur tangan yang tidak sah terhadap barang bergerak

Pelanggaran privasi (atau keamanan situs) terjadi ketika situs web atau servernya dibobol atau dirusak dengan cara apa pun. Dalam konteks web scraping, crawler yang mengirimkan permintaan berulang dapat memengaruhi kinerja situs web target dengan membuat servernya mogok atau melambat.

Dari sudut pandang hukum, pemilik situs web dapat menganggap permintaan yang sering terjadi sebagai serangan yang disengaja terhadap sistem mereka. Oleh karena itu, penting dan bertanggung jawab secara moral bagi penyedia DaaS untuk mengembangkan scraper yang tidak merugikan situs target.


Kasus-kasus penting

Seperti disebutkan sebelumnya, ada beberapa kasus historis yang memiliki prioritas hukum dalam tuntutan hukum web scraping.

eBay vs. Tepi Penawar (1999)

Bidder's Edge, situs web yang mengumpulkan tawaran lelang, mengirimkan 100.000 permintaan setiap hari ke server eBay untuk mengakses lelang yang sedang berlangsung, sehingga menyebabkan kerusakan pada sistem eBay. Pada akhir tahun 1999, eBay mengajukan perintah awal terhadap Bidder's Edge, dengan tuduhan pelanggaran terhadap Trespass to Chattels Act.

Meskipun kedua belah pihak kemudian menyelesaikan kasus tersebut di luar pengadilan dengan jumlah yang tidak diungkapkan, hal ini menjadi preseden hukum untuk kasus-kasus di masa depan.

hiQ Labs vs LinkedInhiQ Labs vs LinkedIn

Lab HiQ vs LinkedIn (2019)

Kasus bersejarah ini bermula ketika hiQ Labs, sebuah perusahaan analisis data, menggugat LinkedIn karena melarangnya menghapus profil publik di LinkedIn. HiQ Labs menggunakan data tersebut untuk mensurvei pemberi kerja tentang pelamar.

Pada tahun 2019, Pengadilan Banding Ninth Circuit memutuskan bahwa CFAA tidak berlaku karena data tersedia untuk umum dan tidak memiliki hak cipta. Akibatnya, LinkedIn tidak dapat memblokir hiQ Labs mengakses profil publiknya. Namun, akses ke profil pengguna hanya dibatasi setelah login.

Perlu dicatat bahwa kasus ini masih jauh dari selesai, karena LinkedIn terus melanjutkan masalah ini ke Mahkamah Agung AS.

Pembaruan (April 2022): Dalam keputusan keduanya pada tanggal 18 April 2022, Ninth Circuit mengulangi keputusan aslinya, menemukan bahwa pengumpulan data yang tersedia untuk umum di Internet bukanlah pelanggaran terhadap Undang-Undang Penipuan dan Penyalahgunaan Komputer (CFAA), yang mengatur, yang merupakan peretasan komputer berdasarkan hukum AS. (melalui TechCrunch)

Pembaruan (Desember 2022): Pada tanggal 6 Desember 2022, hiQ Labs dan LinkedIn mencapai kesepakatan penyelesaian rahasia, mengakhiri perselisihan hukum yang sudah berlangsung lama.


Ringkasan

Karena pertanyaan tentang web scraping tidak hitam dan putih, Anda harus menganalisis setiap kasus penggunaan secara menyeluruh untuk menghindari konsekuensi yang tidak diinginkan. Anda harus mempertimbangkan undang-undang yang ada, jenis data yang dikumpulkan, kondisi dan kebijakan sumber data, serta penggunaan etis setelah ekstraksi.

Di Grepsr, kami menjalankan tanggung jawab pengikisan web dengan sangat serius dan mematuhi semua kerangka hukum sebelum, selama, dan setelah melakukan proyek pengumpulan data. Kami juga mengikuti praktik etika terbaik untuk menghindari kompromi terhadap kinerja situs web target kami sambil terus memberikan data yang paling akurat dan andal kepada semua pelanggan kami.

Pos terkait

Tinggalkan Komentar