Program ini digunakan untuk mengambil data dari website berita CNN
- penggunaan requests daripada webdriver (selenium/playwright) sehingga dapat berjalan lebih cepat dan ringan
- penggunaan Pyquery dari pada BS4 (Beautiful soup) sehingga lebih mudah untuk memparser (filter) content HTML untuk mengambil data yang di butuhkan
- penggunaan logging untuk mempermudah dalam memonitoring data
- mengambil data mulai dari berita yang paling update
- dapat mengambil 1000 page berita dalam 1 kali run
- icecream adalah library Python yang menyediakan cara sederhana dan informatif untuk mencatat kode, membantu memantau alur eksekusi program.
- requests adalah library Python yang mudah digunakan untuk berinteraksi dengan API dan membuat permintaan HTTP.
Untuk menjalankan program ini Anda perlu menginstal beberapa librarys dengan perintah
pip install -r requirements.txt
# Clone this repositories
git clone https://github.com/ryosoraa/CNN-scraping.PY.git
# go into the directory
cd CNN-scraping.PY
Untuk menjalankan Programnya kamu hanya perlu menjalankan dengan command
python main.py
│ LICENSE
│ main.py
│ README.md
│ requirements.txt
│
├───data
└───libs
│ __init__.py
│
├───service
│ cnn.py
│
└───utils
corrector.py
logs.py
parser.py
writer.py
👤 Rio Dwi Saputra
- Twitter: @ryosora12
- Github: @ryosoraa
- LinkedIn: @rio-dwi-saputra-23560b287
- Instagram: @ryosoraa