Skip to content

telunyang/python_web_scraping

Folders and files

NameName
Last commit message
Last commit date

Latest commit

22e2408 · Jan 16, 2025
Jan 16, 2025
Jul 23, 2024
Jun 12, 2024
Nov 26, 2024
Nov 28, 2024
Nov 26, 2024
Jun 12, 2024
Aug 13, 2024
Jan 16, 2025
Nov 26, 2024
Dec 3, 2023
Nov 26, 2024
Mar 23, 2022
Dec 27, 2024
Nov 28, 2024
Nov 28, 2024
May 29, 2020
Jun 12, 2024

Repository files navigation

python_web_scraping

Python 網路爬蟲講義與範例程式碼

提問

  • 通則
    • 「結業前」可提問、討論,要把多餘時間和資源,留給當前上課的學員。
  • 寫信
    • E-mail: [email protected]
    • 信件標題寫上你的班別和姓名,或是在哪裡參與我的課程,例如 [資展 BDSEXX / 臺大計中 / 聯成] 你的主旨 ○○○。
    • 提問的內容要與本專案有關,其它課程的部分,去請益原本授課的老師
    • 不要把程式碼寄給我,可能沒時間看,討論儘量以解決問題的方向為主。
    • 不符合以上幾點,將直接刪除,敬請見諒。

作業

  • 僅限授課學員。
  • 同學之間可以互相討論,但千萬不要抄襲。
  • 使用 requestsBeautifulSoup,或是 selenium 來爬取網站資料。
    • Project Gutenberg
      • 爬取 中文 書籍資料 (注意: 只要取得中文字,不要英文字。)
      • 80 分條件
        • 新增 project_gutenberg 資料夾,並將每一本書的中文內容存入 txt 檔,txt 的檔名是超連結名稱,例如 豆棚閒話.txt
          • 注意:每一個 txt 都會被存在 project_gutenberg 資料夾內。
        • 錄製執行過程,並提供影片連結,可以放在 YouTube 或是 Google Drive,影片當中要隨機打開 3 個 .txt,驗證內容是否是純中文字 (不要英文字)。
        • 至少要有 200 本,少 1 本扣 1 分,要在影片中顯示 .txt 的數量,例如在檔案總管的某一個角落,有寫著檔案總數。
        • 不用給我看程式碼,也不用邊寫邊執行,錄製的時候直接執行程式、直接爬取資料到 project_gutenberg 即可。
        • 參考影片: 古騰堡計劃(Project Gutenberg)中文電子書爬取
      • 100 分條件 (基於 80 分條件)
        • 使用 GitHub 平台來提交作業,並且將 github repo 連結 以及 影片連結 連結寄給我。
        • repository 裡面至少要有 project_gutenberg 資料夾,還有你的 .py.ipynb 檔案,以及 README.md
          project_gutenberg/
          project_gutenberg.ipynb (或 .py)
          README.md
          
        • README.md 要有說明 (用 .py 執行要額外說明執行指令或方法),例如:
          # Project Gutenberg
          爬取中文書籍,共 xxx 本。
          
          ## 安裝套件
          - requests (版本號)
          - beautifulsoup4 (版本號)
          - selenium (版本號)
          ...
          (版本號可用 pip list,或是 conda list 來檢視)
          ...
          
          ## 成果
          ![](執行過程的擷圖或說明圖片)
          ...
          [影片名稱或其它標題](你的影片連結)
          ...
          
          ## 其它你想要補充標題和內容
          ...
          ...
        • 可以參考以前學長的 README 撰寫方式: FaceBook FanPage Scraper with selenium
      • 沒交:0 分。
  • 繳交時間
    • 原則上最後一堂課結束後 2 週內,準確時間上課說明。

教學參考影片

延伸應用

Releases

No releases published

Packages

No packages published

Languages