はてなブックマークの人気エントリを250件くらいurlとタイトルとテキストデータを取ってくる
MongoDBの設定
MongoDB Compassがあると便利
https://garafu.blogspot.com/2019/02/install-mongod-on-macos.html
https://qiita.com/____easy/items/4dcda6cc4f5e7de13d36
scrapy, request, readability-lxml
をpipかcondaかで入れるのだ...
名前 | 意味 |
---|---|
url | URL |
title | ブログタイトル |
html | htmlそのまま |
content | 文章 |
ルートディレクトリ で
scrapy crawl broad
参考にしたページとかをそれぞれがまとめておくと、つまづかなくて済むかも??(自由に追記、編集して...)
ブログ名 | 説明 |
---|---|
スクレイピングのまとめ | |
はてなapiで文書とブックマーク数を取得 | |
自然言語処理における前処理 | |
scrapy入門 | |
記事分類・特徴量選択 | 特徴量選択をするパッケージ |
ニュース記事分類 | MeCab gensim scikit-learn使用 辞書作成 単語抽出 次元圧縮 ランダムフォレスト |
ディープラーニングAPIまとめ | 様々なAPIの紹介 |
Watson Natural language Understanding | 文書からのメタデータの抽出 |