show	version	enable_checker
step	1.0	true

爬取百度指数

回忆

上次爬了百度指数
可以通过时间维度进行分割
也可以通过空间维度进行分割
重要的是能够到网上查找源代码
这很酷啊
还能爬点什么呢？🤔
这次我想爬取图片

向日葵八号

向日葵八号是一颗日本的气象卫星
可以在上面找到实时的卫星云图
https://himawari8.nict.go.jp/

分析

选择一个具体的时间和日期
F12 检查元素
筛选出图片的地址
我们可以看到这是一张缩略图
- 注意他地址所对应的时间是本初子午线的时间
- 而不是我们所在时区的时间
我们可以直接 get 到他么？

直接打开

我们在浏览器中可以直接打开

甚至可以直接用 wget 的方式获得

那可以访问到以前的图片么？

以前的图片

貌似也可以用 wget 取得
那其实也就不用假装成浏览器了
因为用脚本写一个循环然后 wget 就直接得到了
但是其中要使用到日期的递增

试试

遍历日期

书写代码

import os
import datetime
import time
day = datetime.date(2020,1,1)
delta = datetime.timedelta(1)
while day.year < 2021:
    url = "https://himawari8.nict.go.jp/img/D531106/1d/550/" \
         + str(day.year) + "/" \
         + "%02d"%day.month +"/" \
         + "%02d"%day.day + "/" \
         + "030000_0_0.png"
    print(url)
    os.system("wget "+ url)
    day = day + datetime.timedelta(1)

建立一个循环
- 不断按照地址抓取网页

测试结果

ctrl+c 无法结束
ctrl+z 切换到后台运行

测试之后
- 证明是好用的
- 但是名字不合适
- 应该按照日期来写名
搜索一下wget的参数

wget 参数

修改代码

import os
import datetime
import time
day = datetime.date(2020,1,1)
delta = datetime.timedelta(1)
num = 0
while day.year < 2021:
    url = "https://himawari8.nict.go.jp/img/D531106/1d/550/" \
        + str(day.year) + "/" \
        + "%02d"%day.month +"/" \
        + "%02d"%day.day + "/" \
        + "030000_0_0.png"
    print(str(num) + ":" + url)
    image_name = "image_" + str(num) + ".png"
    cmd = "wget -c \"" + url + "\" -O" +  image_name + ".png"
    print(cmd)
    os.system(cmd)
    time.sleep(1)
    day = day +datetime.timedelta(1)
    num = num + 1

运行结果

这样就得到图片序列了
但是这个太空中拍摄的图有点看不清地面
可以和地面结合起来么？

寻找

http://agora.ex.nii.ac.jp/cgi-bin/dt/create_index.pl?lang=ja&year=2021&month=10&day=27&hour=3&basin=wnp&tz=utc

这个网站上的图片效果不错

找到地址

http://agora.ex.nii.ac.jp/digital-typhoon/globe/color/2021/512x512/HMW821102703.globe.1.jpg
分析文件名
- HMW8 向日葵 8 号
- 211027 日期
- 03 地球标准时间(本初子午线)
这个情况也可以用 wget 的方式得到

总结

这次爬了卫星
卫星云图具有相应的规律
可以通过分析 url 把图片一张张 wget 下来
这其实并不是真正的爬取
如何通过模拟浏览器来进行爬取呢？🤔
下次再说

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

571-250391-爬取图片_卫星云图_向日葵七号.sy.md

571-250391-爬取图片_卫星云图_向日葵七号.sy.md

爬取百度指数

回忆

向日葵八号

分析

直接打开

以前的图片

试试

遍历日期

书写代码

测试结果

wget 参数

修改代码

运行结果

寻找

找到地址

总结

Files

571-250391-爬取图片_卫星云图_向日葵七号.sy.md

Latest commit

History

571-250391-爬取图片_卫星云图_向日葵七号.sy.md

File metadata and controls

爬取百度指数

回忆

向日葵八号

分析

直接打开

以前的图片

试试

遍历日期

书写代码

测试结果

wget 参数

修改代码

运行结果

寻找

找到地址

总结