本项目旨在对 Bangumi 番组计划(bgm.tv)中 VIB(Very Important Bangumier)有数据的条目的评分透视数据进行快照备份。
我们提供查询单个 subject 部分最新数据的接口。
API 接口形如 https://api.jirehlov.com/vib/{subject_id}
,其中{subject_id}
为所要查询的条目的 id。详见发布于 Bangumi 番组计划的帖子。但如果您要做批量数据处理,希望您能够下载 CSV 以避免无谓的 API 负载。最新的 CSV 可在此下载。
服务器日志公开于Telegram频道。
凡部署于我的域名 *.jirehlov.com 下的服务皆受到 Cloudflare 的保护。如果您的访问请求被拦截,请尝试更换网络环境。
【服务端】重置跳过列表,并删去了依据HTML的数据解析逻辑,改用事后计算。
【服务端】增加对进度文件的备份。
【CSV】根据 RFC 4180 所引 RFC 2046 的意见,重新确定换行符为CRLF
。并把历史 CSV 都改为了CRLF
(如果不是)。
【CSV】确定换行符为LF
。并把历史 CSV 都改为了LF
(如果不是)。
【CSV】编码改为UTF-8 with BOM
,解决了 Excel 打开乱码的问题。
【服务端】重置跳过列表,并且增加了跳过计数阈值,优化循环。
首次公开版本号。
编码格式:UTF-8 with BOM
引号类型:"
分隔符类型:,
MIME类型:text/csv
换行符:CRLF
列标 | 释义 | 来源 | 列数始末(0起) |
---|---|---|---|
subject | 即条目的 id,与 Bangumi 官方 api 的 id 释义同。 | N/A | 0 |
类型 | 即条目类型,与 Bangumi 官方 api 的 type 释义同。1 为书籍,2 为动画,3 为音乐,4 为游戏,6 为三次元。 | 官方 API | 1 |
标题 | 即条目名,与 Bangumi 官方 api 的 name 释义同。 | 官方 API | 2 |
中文标题 | 即条目中文名,与 Bangumi 官方 api 的 name_cn 释义同。若为空,则以标题作中文标题的值。 | 官方 API | 3 |
VIB评分 | VIB 评分数据的加权平均数。 | 基于第 7-16 列计算 | 4 |
VIB标准差 | VIB 评分数据的标准差。 | 基于第 7-16 列计算 | 5 |
VIB评分数 | VIB 评分数据的样本数,即评分人数。 | 基于第 7-16 列计算 | 6 |
1.1、2.1、3.1、4.1、5.1、6.1、7.1、8.1、9.1、10.1 | VIB 评分数据,依次是评分为 1、2、...、10 的频数。 | 官方透视 | 7-16 |
表面评分排名 | 站内常用表面评分的排名,与 Bangumi 官方 api 的 rating 下的 rank 释义同。 注意:本字段为获取时的官方值,并未做本地计算,因此可能存在多个条目排名相同的情况。因为时间跨度足够大时,官方进行了多轮复排。 | 官方 API | 17 |
表面评分数 | 站内常用表面评分数据的样本数,即评分人数,与 Bangumi 官方 api 的 rating 下的 total 释义同。 | 官方 API | 18 |
表面评分 | 站内常用表面评分数据的加权平均数,与 Bangumi 官方 api 的 rating 下的 score 释义同。 | 基于第 20-29 列计算 | 19 |
1.2、2.2、3.2、4.2、5.2、6.2、7.2、8.2、9.2、10.2 | 站内常用表面评分数据,依次是评分为 1、2、...、10 的频数,与 Bangumi 官方 api 的 rating 下的 count 释义同。 | 官方 API | 20-29 |
是否被锁定 | 与 Bangumi 官方 api 的 locked 释义同,布尔值。TRUE 则被锁定,FALSE 则未被锁定。 |
官方透视 | 30 |
发布发售放送时间 | 与 Bangumi 官方 api 的 date 释义同。 | 官方 API | 31 |
NSFW | 与 Bangumi 官方 api 的 nsfw 释义同,布尔值。TRUE 则为 NSFW,FALSE 则不是 NSFW。 |
官方 API | 32 |
子类型 | 与 Bangumi 官方 api 的 platform 释义同。 | 官方 API | 33 |
搁置、抛弃、想、已、在 | 与 Bangumi 官方 api 的 collection 释义同。 | 官方 API | 34-38 |
is1、is2、...、is50 | 透视中的其他数据。按收藏类型分布。每5个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为(含义未知,隐藏?想看/读/听/玩?)、看/读/听/玩过、在看/读/听/玩、搁置、抛弃。做通用数据处理时,可 mod 5。若源为空,则皆为 0。 | 官方透视 | 39-88 |
ad1、ad2、...、ad30 | 透视中的其他数据。按放送时间分布。每3个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为放送前、放送中、放送结束。做通用数据处理时,可 mod 3。若源为空,则皆为 0。 | 官方透视 | 89-118 |
tc1、tc2、...、tc80 | 透视中的其他数据。按用户收藏量分布。每8个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为 1、10-、10+、50+、100+、200+、500+、1000+。做通用数据处理时,可 mod 8。若源为空,则皆为 0。 | 官方透视 | 119-198 |
rd1、rd2、...、rd70 | 透视中的其他数据。按用户注册时间分布。每7个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为 10 天、1 月、6 月、1 年、2 年、3 年、>3 年。做通用数据处理时,可 mod 7。若源为空,则皆为 0。 | 官方透视 | 199-268 |
qd1、qd2、...、qd70 | 透视中的其他数据。按用户评价时间(注册 X 天内评分)分布。每7个为一组,依次是评分为 10、9、8、...、1 的频数。组内顺序为 10 天、1 月、6 月、1 年、2 年、3 年、>3 年。做通用数据处理时,可 mod 7。若源为空,则皆为 0。 | 官方透视 | 269-338 |
更新时间 | VIB 相关字段被更新的时间,时区为UTC+0 ,格式为%Y-%m-%dT%H:%M:%SZ 。注意这有时不是其他字段的更新时间。 |
N/A | 339 |
表面标准差 | 站内常用表面评分数据的标准差。 | 基于第 20-29 列计算 | 340 |
VIB朴素排名 | VIB 评分的类型内升序排序后的名次。 | 基于第 4 列计算 | 341 |
类型内VIB总平均分 | 计算 VIB 加权排名的中间量。 | 基于第 4 列计算 | 342 |
类型内前250的最小VIB评分数 | 计算 VIB 加权排名的中间量。 | 基于第 6、231 列计算 | 343 |
类型内加权VIB平均分 | 计算 VIB 加权排名的中间量,依照此处计算。 | 基于第 4、6、232、233 列计算 | 344 |
VIB加权排名 | 根据类型内加权 VIB 平均分升序排序后的名次。 | 基于第 234 列计算 | 345 |
- 本 CSV 编码为
UTF-8 with BOM
,注意文件开头 subject 前的三字节EF BB BF
。较老的副本编码为不带 BOM 的UTF-8
,如果 Excel 乱码请自定义导入编码。 - 被锁定的和表面评分为 0 的条目因为不参与排名,其第 341、342、343、344、345 列将不会被计算,将为 0。
- 本 CSV 经过若干次扩充和格式修改,如果以上规则不符合历史版本,请以最新版为准。“透视中的其他数据”各行可能因为透视改版而变动,且因为 VIB 不存在的条目不会被更新,如果做纵向数据处理,请注意跳变。
- 本仓库将历史 CSV 用
sorted_%Y%m%d%H%M%S.csv
的格式命名,其中时间为 CSV 的生成时间戳,其时区通常为UTC+8
,但并不保证,不应作为参考。请依照第 339 列更新时间为准。 - 本仓库将过早的历史 CSV 打包为 7z,一般情况半年打包一次,参考文件名识别。
- 如果某条目因为各种原因失去了 VIB 数据,其依然会留在 CSV 中。
- API 接口是疏于维护的,核心维护的精力在于 CSV 与本仓库。
- 条目信息继承官方授权许可,依照 Bangumi 番组计划版权声明,遵循 CC BY-SA 3.0。
- 数据信息授权许可遵循 CC BY-SA 4.0。
- 本仓库数据获取遵循 Bangumi 开发者平台使用协议。