Beranda BlogPengikisan web Pembersihan Data 101: Hapus Tag dengan BeautifulSoup

Pembersihan Data 101: Hapus Tag dengan BeautifulSoup

oleh Kadek

Membersihkan data kotor dan menangani kasus edge

Data yang diambil dari Internet sering kali tidak konsisten atau tidak lengkap, sehingga menimbulkan tantangan dalam sebagian besar proyek scraping. Bagian ini menjelaskan strategi untuk menangani kasus-kasus khusus tersebut, termasuk data yang hilang, format data yang berbeda, dan entri duplikat.

Berikut beberapa strategi untuk menangani kasus edge

  • Coba/Kecuali – Berguna untuk menangani kesalahan dengan baik.
  • Penguraian bersyarat – Menerapkan logika kondisional untuk menganalisis data secara berbeda berdasarkan strukturnya.
  • Kelas data – Gunakan kelas data Python untuk menyusun data Anda agar pembersihan dan manipulasi menjadi lebih mudah.
  • Saluran data – Menerapkan saluran data untuk membersihkan, memvalidasi, dan mengubah data sebelum disimpan.
  • Pembersihan selama analisis data – Lakukan pembersihan data sebagai bagian dari proses analisis data Anda.

Menerapkan kelas data untuk data terstruktur

Di bagian ini, kami menggunakan kelas data untuk menyusun data sisa kami guna memastikan konsistensi dan kemudahan manipulasi.

Sebelum kami membersihkan dan memproses data, kami menentukan impor yang diperlukan dari dataclasses Modul dan atur milik kita Product Kelas data. Kelas ini berfungsi sebagai cetak biru untuk menyusun data produk kami yang telah di-crack.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
 
     =
    ) =
     =
     = =)
     = =)
 
    
        =
        =
        =

Di sini kita mengimpor dataclass, fieldDan InitVar dari itu dataclasses Modul. Itu @dataclass Dekorator secara otomatis menambahkan metode khusus ke dalamnya Product kelas, seperti __init__ Dan __repr__berdasarkan atribut kelasnya.

Kelas produk didefinisikan dengan beberapa atribut:

  • Nama belakang: String yang mewakili nama produk.
  • Harga: Variabel inisialisasi (InitVar), yang berisi harga sebagai string. Atribut ini tidak termasuk dalam kelas __init__ metode dan digunakan untuk pengolahan sebelum dibuang.
  • URL (URL): String yang mewakili URL produk.
  • Harga_GBP: Float yang mewakili harga produk dalam GBP. Atribut ini tidak termasuk dalam kelas __init__ metode dan diatur selama inisialisasi (init=False).
  • Harga (Rp: Float yang mewakili harga produk dalam USD. Bagaimana price_gbpatribut ini tidak termasuk dalam kelas __init__ Metode dan diatur selama inisialisasi.

Penyiapan ini memberikan cara terstruktur untuk mengelola data produk, termasuk pembersihan dan konversi harga, normalisasi URL, dan banyak lagi.

Langkah selanjutnya mencakup penerapan metode di dalam Product kelas untuk melakukan operasi ini.

Bersihkan harganya

Dengan kami Product Setelah kelas data ditentukan, langkah selanjutnya adalah menerapkan metode untuk membersihkan data harga. Kami membersihkan string harga dengan menghapus karakter yang tidak perlu seperti simbol mata uang (“£”) dan indikator harga jual (“Harga jual£”, “Harga jualDari £”).

Tentukan metode clean_price dalam Product Kelas yang mengambil string harga, menghapus semua karakter non-numerik, dan mengembalikan harga yang telah disanitasi sebagai float.

1
2
3
4
5
6
7
8
):
=
=
=
=
==
     0.0
  • Metode ini pertama-tama menghilangkan spasi di awal atau akhir dari string harga
  • Semua contoh “Harga Jual£” dan “Harga JualDari £” kemudian dihapus dari string
  • Simbol “£” kemudian akan dihapus.

Jika string yang dihasilkan kosong, “0,0” dikembalikan, menunjukkan bahwa harga tidak ada atau tidak tersedia. Jika tidak, string yang dibersihkan akan diubah menjadi float dan dikembalikan.

Konversikan harganya

Setelah kami membersihkan harga, kami perlu mengonversikannya dari GBP ke USD untuk menstandarkan mata uang di seluruh kumpulan data kami, terutama saat menangani data internasional.

1
2
):
* 1.28

Metode ini mengalikan harga GBP yang disesuaikan dengan kurs konversi (1.28 dalam contoh ini) untuk menghitung harga dalam USD. Nilai konversi ini dapat diperbarui secara dinamis berdasarkan nilai tukar saat ini.

Normalisasikan URL

Kasus umum lainnya saat mengambil data adalah format URL yang tidak konsisten. Beberapa URL dapat berupa jalur relatif sementara yang lain merupakan URL absolut. Normalisasi URL memastikan bahwa URL diformat secara konsisten, sehingga lebih mudah digunakan.

Kita akan mendefinisikan a normalize_url metode di dalam Product Kelas yang memeriksa apakah URL dimulai dengan http:// atau https://. Jika tidak, maka diberi “awalan”http://example.com“ ke URL.

1
2
3
4
5
6
):
==
    
) ):
     +
  • Cara ini pertama-tama memeriksa apakah URL tersebut kosong. Jika hal ini terjadi, “hilang” dikembalikan.
  • Ia kemudian memeriksa apakah URL tidak dimulai dengan “http://” atau “https://”.
  • Dalam hal ini, URL diawali dengan “http://example.com” untuk memastikan formatnya valid.
  • Jika URL sudah diawali dengan "http://" atau "https://", URL dikembalikan tanpa perubahan.

Uji kelas data produk

Terakhir, uji kelas data Produk dengan beberapa data sampel.

1
2
3
4
5
6
7
8
9
10
11
12
13
= (
    {: , : , : },
    {: , : , : },
    {: , : , : }
)
 
= ===))
 
    )

Kode ini membuat daftar kamus yang mewakili beberapa data produk yang diekstrak. Ia kemudian mengulangi daftar ini dan membuat a Product Contoh untuk setiap kamus dan tambahkan ke processed_products Daftar.

Akhirnya itu mengulangi processed_products Cantumkan dan cetak nama, harga GBP, harga USD dan URL masing-masing produk.

1
2
3
1.992.5472///-
2.53.2///-
0.991.2672///-

Tindakan ini memverifikasi bahwa kelas data produk membersihkan dan memproses data yang dihapus dengan benar.

Kode kelas data lengkap

Berikut kode lengkapnya Product Contoh kelas data.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
 
     =
    ) =
     =
     = =)
     = =)
 
    
        =
        =
        =
 
 
     ):
        =
        =
        =
        =
         ==
             0.0
        
     
     ):
       ==
            
       ) ):
             +
      
     
     ):
         * 1.28
 
= (
    {: , : , : },
    {: , : '£5.50', : ''},
    {: , : , : },
    {: , : , : },
    {: , : , : },
    {: , : , : }
)
 
 
= ()
    = =),
                   =),
                   =))
    
 
    )

Memproses dan menyimpan data yang tergores dengan saluran data

Setelah membersihkan data menggunakan pendekatan terstruktur Kelas Data Produk, kami melanjutkan ke langkah penting berikutnya: memproses dan menyimpan data ini secara efisien.

Pada fase ini, pipeline data memainkan peran sentral, memungkinkan kita memproses data secara sistematis sebelum menyimpannya. Operasi dalam saluran data kami meliputi:

  • Cek duplikat: Periksa apakah suatu elemen sudah ada dalam kumpulan data untuk menghindari redundansi.
  • Manajemen antrian data: Menyimpan sementara data yang diproses sebelum menyimpan dan mengelola aliran dan volume.
  • Penyimpanan data berkala: Menyimpan data ke file CSV secara berkala atau berdasarkan pemicu tertentu.

Menyiapkan kelas ProductDataPipeline

Pertama mari kita definisikan struktur kita ProductDataPipeline Kelas, dengan penekanan pada inisialisasi dan metode dasar yang mendukung operasi di atas:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
 
     ==10):
        = ()
        = ()
        =
        =
        =
 
     ):
        
     
    
        
     
    
        
     
    
        
     
     ):
        

Itu __init__ Metode ini menyiapkan kondisi awal, termasuk kumpulan untuk melacak nama produk yang terlihat (untuk memeriksa duplikat), antrean untuk menyimpan produk sementara, dan konfigurasi untuk keluaran file CSV.

Bersihkan data produk mentah

Sebelum suatu produk dapat ditambahkan ke antrean pemrosesan kami, produk tersebut harus dibersihkan dan disusun terlebih dahulu. Itu clean_raw_product Metode ini mencapai hal ini dengan mengubah data mentah yang tergores menjadi sebuah instance Product Kelas data untuk memastikan bahwa data kami sesuai dengan struktur dan tipe yang diharapkan.

1
2
3
4
5
6
7
= {
    
    
    
}
**

Setelah data produk mentah dibersihkan, data tersebut harus diperiksa apakah ada duplikatnya dan, jika unik, ditambahkan ke antrean pemrosesan. Ini dikelola oleh add_product Dan is_duplicate metode atau

Tambahkan produk dan periksa duplikatnya

Itu is_duplicate() Fungsi memeriksa apakah suatu produk sudah ada di names_seen Daftar. Jika ya, pesan akan dicetak dan dikembalikan True, menunjukkan bahwa produk tersebut adalah duplikat. Jika tidak, nama produk ditambahkan names_seen daftar dan kembali False.

1
2
3
4
5
6
    )
    

Itu add_product Metode ini pertama-tama membersihkan data yang dihapus dan membuat a Product Obyek. Ia kemudian memeriksa apakah produk tersebut duplikat is_duplicate Metode. Jika bukan duplikat, produk akan ditambahkan ke dalamnya storage_queue. Terakhir, ia memeriksa apakah antrean penyimpanan telah mencapai batasnya dan, jika ya, akan memanggilnya save_to_csv Metode untuk menyimpan produk dalam file CSV.

1
2
3
4
5
6
=
    
     (=
        

Penyimpanan data secara teratur dalam format CSV

Itu save_to_csv Metode ini diaktifkan ketika antrean penyimpanan mencapai batasnya atau ketika alur ditutup, sehingga memastikan persistensi data.

1
2
3
4
5
6
7
8
9
10
11
12
13
):
    
 
=
(=='-8
    = = 0))))
     == 0:
        
    
        
=

Itu save_to_csv Metode ini dirancang untuk dieksekusi ketika antrian memori tidak kosong. Ini menandai file CSV sebagai terbuka (untuk mengelola akses bersamaan), kemudian mengulangi setiap produk dalam antrian dan membuat cerita bersambung ke dalam kamus (menggunakan asdict) dan tulis ke file CSV.

File CSV terbuka dalam mode penambahan (a), yang memungkinkan data ditambahkan tanpa menimpa informasi yang sudah ada. Metode ini memeriksa apakah file telah dibuat ulang dan menulis header kolom yang sesuai.

Setelah menyimpan produk yang antri, antrean dikosongkan dan file CSV ditandai sebagai ditutup, siap untuk kumpulan data berikutnya.

Menutup pipa

Dipastikan tidak ada data yang belum disimpan close_pipeline Metode ini menangani aliran data akhir ke dalam file CSV.

1
2
3
):
    

Menguji saluran data

Untuk menunjukkan keefektifan kami ProductDataPipelineMari kita simulasikan proses penambahan beberapa produk, termasuk duplikat, untuk melihat bagaimana saluran kami mengelola pembersihan data, deteksi duplikat, dan penyimpanan CSV.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
= ==3)
 
= (
    {: , : , : },
    {: , : '£5.50', : ''},
    {: , : , : },
    {: , : , : },
    {: , : , : },
    {: , : , : }
)
 
    
 
 
()

Skrip pengujian ini menginisialisasi ProductDataPipeline dengan nama file CSV tertentu dan batas antrian penyimpanan. Kami kemudian akan mencoba menambahkan tiga produk, termasuk duplikatnya, untuk melihat bagaimana saluran kami menanganinya.

Itu close_pipeline Metode ini dipanggil terakhir untuk memastikan bahwa semua data ditulis ke file CSV. Hal ini menunjukkan kemampuan pipeline untuk mengelola data secara end-to-end.

Kode saluran data lengkap

Berikut kode lengkapnya ProductDataPipeline Kelas yang mengintegrasikan semua langkah yang disebutkan dalam artikel ini:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
 
     ==10):
        = ()
        = ()
        =
        =
        =
 
     ):
        
            
         
        =
        (=='-8
            = = 0))))
             == 0:
                
            
                
        
        =
 
    
        = {
            
            
            
        }
         **
 
    
        
            )
            
        
        
 
    
        =
        
            
             (=
                
 
     ):
        
            
 
 
= ==3)
 
= (
    {: , : , : },
    {: , : '£5.50', : ''},
    {: , : , : },
    {: , : , : },
    {: , : , : },
    {: , : , : }
)
 
    
 
 
()

Terus belajar

Dalam artikel ini, kami telah memberikan panduan komprehensif untuk membersihkan dan menyusun data tergores menggunakan kelas data dan saluran data. Dengan mengikuti teknik ini, Anda dapat memastikan bahwa data yang Anda ambil akurat, konsisten, dan siap untuk dianalisis.

Jika Anda ingin mengambil data dalam jumlah besar tanpa diblokir, Anda harus menggunakan ScraperAPI. Ini menyediakan API sederhana yang memungkinkan Anda mendapatkan respons HTML yang dirender sepenuhnya, termasuk respons dari situs web dinamis.

Sampai jumpa lagi, selamat menggores!

Pos terkait

Tinggalkan Komentar