Skip to content

WSD2019-teamD/blog_scraping

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

scraping

blog_scraping

はてなブックマークの人気エントリを250件くらいurlとタイトルとテキストデータを取ってくる

初期設定

MongoDBの設定

MongoDB Compassがあると便利

https://garafu.blogspot.com/2019/02/install-mongod-on-macos.html

https://qiita.com/____easy/items/4dcda6cc4f5e7de13d36

requirement

scrapy, request, readability-lxml をpipかcondaかで入れるのだ...

現在のmongoDBの状態

名前 意味
url URL
title ブログタイトル
html htmlそのまま
content 文章

使い方

ルートディレクトリ で

scrapy crawl broad

参考

参考にしたページとかをそれぞれがまとめておくと、つまづかなくて済むかも??(自由に追記、編集して...)

スクレイピングのまとめ

はてなapiで文書とブックマーク数を取得

自然言語処理における前処理

scrapy入門

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Julia 99.6%
  • Python 0.4%