show | version | enable_checker |
---|---|---|
step |
1.0 |
true |
- 上次爬了百度指数
- 可以通过时间维度进行分割
- 也可以通过空间维度进行分割
- 重要的是能够到网上查找源代码
- 这很酷啊
- 还能爬点什么呢?🤔
- 这次我想爬取图片
- 向日葵八号是一颗日本的气象卫星
- 可以在上面找到实时的卫星云图
- https://himawari8.nict.go.jp/
- 我们在浏览器中可以直接打开
- 甚至可以直接用 wget 的方式获得
- 那可以访问到以前的图片么?
- 貌似也可以用 wget 取得
- 那其实也就不用假装成浏览器了
- 因为用脚本写一个循环然后 wget 就直接得到了
- 但是其中要使用到日期的递增
import os
import datetime
import time
day = datetime.date(2020,1,1)
delta = datetime.timedelta(1)
while day.year < 2021:
url = "https://himawari8.nict.go.jp/img/D531106/1d/550/" \
+ str(day.year) + "/" \
+ "%02d"%day.month +"/" \
+ "%02d"%day.day + "/" \
+ "030000_0_0.png"
print(url)
os.system("wget "+ url)
day = day + datetime.timedelta(1)
- 建立一个循环
- 不断按照地址抓取网页
- ctrl+c 无法结束
- ctrl+z 切换到后台运行
- 测试之后
- 证明是好用的
- 但是名字不合适
- 应该按照日期来写名
- 搜索一下wget的参数
import os
import datetime
import time
day = datetime.date(2020,1,1)
delta = datetime.timedelta(1)
num = 0
while day.year < 2021:
url = "https://himawari8.nict.go.jp/img/D531106/1d/550/" \
+ str(day.year) + "/" \
+ "%02d"%day.month +"/" \
+ "%02d"%day.day + "/" \
+ "030000_0_0.png"
print(str(num) + ":" + url)
image_name = "image_" + str(num) + ".png"
cmd = "wget -c \"" + url + "\" -O" + image_name + ".png"
print(cmd)
os.system(cmd)
time.sleep(1)
day = day +datetime.timedelta(1)
num = num + 1
- 这样就得到图片序列了
- 但是这个太空中拍摄的图有点看不清地面
- 可以和地面结合起来么?
- 这个网站上的图片效果不错
- http://agora.ex.nii.ac.jp/digital-typhoon/globe/color/2021/512x512/HMW821102703.globe.1.jpg
- 分析文件名
- HMW8 向日葵 8 号
- 211027 日期
- 03 地球标准时间(本初子午线)
- 这个情况也可以用 wget 的方式得到
- 这次爬了卫星
- 卫星云图具有相应的规律
- 可以通过分析 url 把图片一张张 wget 下来
- 这其实并不是真正的爬取
- 如何通过模拟浏览器来进行爬取呢?🤔
- 下次再说