Skip to content

blog scraping program for hatena recommendation project

Notifications You must be signed in to change notification settings

edge2992/blog_scraping

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 

Repository files navigation

scraping

blog_scraping

はてなブックマークの人気エントリを250件くらいurlとタイトルとテキストデータを取ってくる

初期設定

MongoDBの設定

MongoDB Compassがあると便利

https://garafu.blogspot.com/2019/02/install-mongod-on-macos.html

https://qiita.com/____easy/items/4dcda6cc4f5e7de13d36

requirement

scrapy, request, readability-lxml をpipかcondaかで入れるのだ...

現在のmongoDBの状態

名前 意味
url URL
title ブログタイトル
html htmlそのまま
content 文章

使い方

ルートディレクトリ で

scrapy crawl broad

参考

参考にしたページとかをそれぞれがまとめておくと、つまづかなくて済むかも??(自由に追記、編集して...)

ブログ名 説明
スクレイピングのまとめ
はてなapiで文書とブックマーク数を取得
自然言語処理における前処理
scrapy入門
記事分類・特徴量選択 特徴量選択をするパッケージ
ニュース記事分類 MeCab gensim scikit-learn使用 辞書作成 単語抽出 次元圧縮 ランダムフォレスト
ディープラーニングAPIまとめ 様々なAPIの紹介
Watson Natural language Understanding 文書からのメタデータの抽出

About

blog scraping program for hatena recommendation project

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages