Skip to content

Latest commit

 

History

History
185 lines (130 loc) · 4.96 KB

571-250391-爬取图片_卫星云图_向日葵七号.sy.md

File metadata and controls

185 lines (130 loc) · 4.96 KB
show version enable_checker
step
1.0
true

爬取百度指数

回忆

  • 上次爬了百度指数
  • 可以通过时间维度进行分割
  • 也可以通过空间维度进行分割
  • 重要的是能够到网上查找源代码
  • 这很酷啊
  • 还能爬点什么呢?🤔
  • 这次我想爬取图片

向日葵八号

图片描述

分析

  • 选择一个具体的时间和日期

  • F12 检查元素

  • 筛选出图片的地址 图片描述

  • 我们可以看到这是一张缩略图

    • 注意他地址所对应的时间是本初子午线的时间
    • 而不是我们所在时区的时间
  • 我们可以直接 get 到他么?

直接打开

  • 我们在浏览器中可以直接打开

图片描述

  • 甚至可以直接用 wget 的方式获得

图片描述

  • 那可以访问到以前的图片么?

以前的图片

图片描述

  • 貌似也可以用 wget 取得
  • 那其实也就不用假装成浏览器了
  • 因为用脚本写一个循环然后 wget 就直接得到了
  • 但是其中要使用到日期的递增

试试

图片描述

图片描述

图片描述

遍历日期

图片描述

图片描述

书写代码

import os
import datetime
import time
day = datetime.date(2020,1,1)
delta = datetime.timedelta(1)
while day.year < 2021:
    url = "https://himawari8.nict.go.jp/img/D531106/1d/550/" \
         + str(day.year) + "/" \
         + "%02d"%day.month +"/" \
         + "%02d"%day.day + "/" \
         + "030000_0_0.png"
    print(url)
    os.system("wget "+ url)
    day = day + datetime.timedelta(1)
  • 建立一个循环
    • 不断按照地址抓取网页

图片描述

测试结果

图片描述

  • ctrl+c 无法结束
  • ctrl+z 切换到后台运行

图片描述

  • 测试之后
    • 证明是好用的
    • 但是名字不合适
    • 应该按照日期来写名
  • 搜索一下wget的参数

wget 参数

图片描述

图片描述

图片描述

修改代码

import os
import datetime
import time
day = datetime.date(2020,1,1)
delta = datetime.timedelta(1)
num = 0
while day.year < 2021:
    url = "https://himawari8.nict.go.jp/img/D531106/1d/550/" \
        + str(day.year) + "/" \
        + "%02d"%day.month +"/" \
        + "%02d"%day.day + "/" \
        + "030000_0_0.png"
    print(str(num) + ":" + url)
    image_name = "image_" + str(num) + ".png"
    cmd = "wget -c \"" + url + "\" -O" +  image_name + ".png"
    print(cmd)
    os.system(cmd)
    time.sleep(1)
    day = day +datetime.timedelta(1)
    num = num + 1

图片描述

运行结果

图片描述

图片描述

  • 这样就得到图片序列了
  • 但是这个太空中拍摄的图有点看不清地面
  • 可以和地面结合起来么?

寻找

http://agora.ex.nii.ac.jp/cgi-bin/dt/create_index.pl?lang=ja&year=2021&month=10&day=27&hour=3&basin=wnp&tz=utc

图片描述

  • 这个网站上的图片效果不错

找到地址

图片描述

总结

  • 这次爬了卫星
  • 卫星云图具有相应的规律
  • 可以通过分析 url 把图片一张张 wget 下来
  • 这其实并不是真正的爬取
  • 如何通过模拟浏览器来进行爬取呢?🤔
  • 下次再说