Skip to content

Bangumi 番组计划(bgm.tv)评分透视数据快照备份(仅VIB有数据的条目)

Notifications You must be signed in to change notification settings

Jirehlov/VIB_Snapshots

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

VIB_Snapshots

简介

本项目旨在对 Bangumi 番组计划(bgm.tv)中 VIB(Very Important Bangumier)有数据的条目的评分透视数据进行快照备份。

API及其相关

我们提供查询单个 subject 部分最新数据的接口。
API 接口形如 https://api.jirehlov.com/vib/{subject_id},其中{subject_id}为所要查询的条目的 id。详见发布于 Bangumi 番组计划的帖子。但如果您要做批量数据处理,希望您能够下载 CSV 以避免无谓的 API 负载。最新的 CSV 可在此下载。
服务器日志公开于Telegram频道
凡部署于我的域名 *.jirehlov.com 下的服务皆受到 Cloudflare 的保护。如果您的访问请求被拦截,请尝试更换网络环境。

项目版本号与更新日志

3.0 (20241028)

【服务端】重置跳过列表,并删去了依据HTML的数据解析逻辑,改用事后计算。

2.8 (20240729)

【服务端】增加对进度文件的备份。

2.7.2 (20240718)

【CSV】根据 RFC 4180 所引 RFC 2046 的意见,重新确定换行符为CRLF。并把历史 CSV 都改为了CRLF(如果不是)。

2.7.1 (20240718)

【CSV】确定换行符为LF。并把历史 CSV 都改为了LF(如果不是)。

2.7 (20240714)

【CSV】编码改为UTF-8 with BOM,解决了 Excel 打开乱码的问题。

2.6.1 (20240711)

【服务端】重置跳过列表,并且增加了跳过计数阈值,优化循环。

2.6 (20240710)

首次公开版本号。

CSV格式详解

编码格式:UTF-8 with BOM
引号类型:"
分隔符类型:,
MIME类型:text/csv
换行符:CRLF

列标 释义 来源 列数始末(0起)
subject 即条目的 id,与 Bangumi 官方 api 的 id 释义同。 N/A 0
类型 即条目类型,与 Bangumi 官方 api 的 type 释义同。1 为书籍,2 为动画,3 为音乐,4 为游戏,6 为三次元。 官方 API 1
标题 即条目名,与 Bangumi 官方 api 的 name 释义同。 官方 API 2
中文标题 即条目中文名,与 Bangumi 官方 api 的 name_cn 释义同。若为空,则以标题作中文标题的值。 官方 API 3
VIB评分 VIB 评分数据的加权平均数。 基于第 7-16 列计算 4
VIB标准差 VIB 评分数据的标准差。 基于第 7-16 列计算 5
VIB评分数 VIB 评分数据的样本数,即评分人数。 基于第 7-16 列计算 6
1.1、2.1、3.1、4.1、5.1、6.1、7.1、8.1、9.1、10.1 VIB 评分数据,依次是评分为 1、2、...、10 的频数。 官方透视 7-16
表面评分排名 站内常用表面评分的排名,与 Bangumi 官方 api 的 rating 下的 rank 释义同。 注意:本字段为获取时的官方值,并未做本地计算,因此可能存在多个条目排名相同的情况。因为时间跨度足够大时,官方进行了多轮复排。 官方 API 17
表面评分数 站内常用表面评分数据的样本数,即评分人数,与 Bangumi 官方 api 的 rating 下的 total 释义同。 官方 API 18
表面评分 站内常用表面评分数据的加权平均数,与 Bangumi 官方 api 的 rating 下的 score 释义同。 基于第 20-29 列计算 19
1.2、2.2、3.2、4.2、5.2、6.2、7.2、8.2、9.2、10.2 站内常用表面评分数据,依次是评分为 1、2、...、10 的频数,与 Bangumi 官方 api 的 rating 下的 count 释义同。 官方 API 20-29
是否被锁定 与 Bangumi 官方 api 的 locked 释义同,布尔值。TRUE则被锁定,FALSE则未被锁定。 官方透视 30
发布发售放送时间 与 Bangumi 官方 api 的 date 释义同。 官方 API 31
NSFW 与 Bangumi 官方 api 的 nsfw 释义同,布尔值。TRUE则为 NSFW,FALSE则不是 NSFW。 官方 API 32
子类型 与 Bangumi 官方 api 的 platform 释义同。 官方 API 33
搁置、抛弃、想、已、在 与 Bangumi 官方 api 的 collection 释义同。 官方 API 34-38
is1、is2、...、is50 透视中的其他数据。按收藏类型分布。每5个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为(含义未知,隐藏?想看/读/听/玩?)、看/读/听/玩过、在看/读/听/玩、搁置、抛弃。做通用数据处理时,可 mod 5。若源为空,则皆为 0。 官方透视 39-88
ad1、ad2、...、ad30 透视中的其他数据。按放送时间分布。每3个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为放送前、放送中、放送结束。做通用数据处理时,可 mod 3。若源为空,则皆为 0。 官方透视 89-118
tc1、tc2、...、tc80 透视中的其他数据。按用户收藏量分布。每8个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为 1、10-、10+、50+、100+、200+、500+、1000+。做通用数据处理时,可 mod 8。若源为空,则皆为 0。 官方透视 119-198
rd1、rd2、...、rd70 透视中的其他数据。按用户注册时间分布。每7个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为 10 天、1 月、6 月、1 年、2 年、3 年、>3 年。做通用数据处理时,可 mod 7。若源为空,则皆为 0。 官方透视 199-268
qd1、qd2、...、qd70 透视中的其他数据。按用户评价时间(注册 X 天内评分)分布。每7个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为 10 天、1 月、6 月、1 年、2 年、3 年、>3 年。做通用数据处理时,可 mod 7。若源为空,则皆为 0。 官方透视 269-338
更新时间 VIB 相关字段被更新的时间,时区为UTC+0,格式为%Y-%m-%dT%H:%M:%SZ。注意这有时不是其他字段的更新时间。 N/A 339
表面标准差 站内常用表面评分数据的标准差。 基于第 20-29 列计算 340
VIB朴素排名 VIB 评分的类型内升序排序后的名次。 基于第 4 列计算 341
类型内VIB总平均分 计算 VIB 加权排名的中间量。 基于第 4 列计算 342
类型内前250的最小VIB评分数 计算 VIB 加权排名的中间量。 基于第 6、231 列计算 343
类型内加权VIB平均分 计算 VIB 加权排名的中间量,依照此处计算。 基于第 4、6、232、233 列计算 344
VIB加权排名 根据类型内加权 VIB 平均分升序排序后的名次。 基于第 234 列计算 345

注意

  1. 本 CSV 编码为UTF-8 with BOM,注意文件开头 subject 前的三字节EF BB BF。较老的副本编码为不带 BOM 的UTF-8,如果 Excel 乱码请自定义导入编码。
  2. 被锁定的和表面评分为 0 的条目因为不参与排名,其第 341、342、343、344、345 列将不会被计算,将为 0。
  3. 本 CSV 经过若干次扩充和格式修改,如果以上规则不符合历史版本,请以最新版为准。“透视中的其他数据”各行可能因为透视改版而变动,且因为 VIB 不存在的条目不会被更新,如果做纵向数据处理,请注意跳变。
  4. 本仓库将历史 CSV 用sorted_%Y%m%d%H%M%S.csv的格式命名,其中时间为 CSV 的生成时间戳,其时区通常为UTC+8,但并不保证,不应作为参考。请依照第 339 列更新时间为准。
  5. 本仓库将过早的历史 CSV 打包为 7z,一般情况半年打包一次,参考文件名识别。
  6. 如果某条目因为各种原因失去了 VIB 数据,其依然会留在 CSV 中。
  7. API 接口是疏于维护的,核心维护的精力在于 CSV 与本仓库。

版权声明

  1. 条目信息继承官方授权许可,依照 Bangumi 番组计划版权声明,遵循 CC BY-SA 3.0
  2. 数据信息授权许可遵循 CC BY-SA 4.0
  3. 本仓库数据获取遵循 Bangumi 开发者平台使用协议

About

Bangumi 番组计划(bgm.tv)评分透视数据快照备份(仅VIB有数据的条目)

Topics

Resources

Stars

Watchers

Forks