数据库名:
internet_content_detection
需要图片鉴黄的数据加上一下三个字段
- sexy_image_status 淫秽色情图像,多个逗号分隔
- sexy_image_url 淫秽色情图像地址,list
- image_pron_status:0 图片扫描状态
网站表 Op_site_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
site_id | 网站id | |||
name | 网站名 | |||
domain | 域名 | |||
url | 网址 | |||
ip | 服务器ip | |||
address | 服务器地址 | |||
video_license | 网络视听许可证 | |||
public_safety | 公安备案号 | |||
icp | ICP号 | |||
read_status | 读取状态 | |||
record_time | 记录时间 |
urls表 Op_urls
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
url | 网址 | |||
depth | int | 层级 | ||
status | int | 状态(0 todo, 1 doing, 2 done, 3 exception) | ||
remark | url备注 | |||
site_id | 网站id |
关键词表 Op_keywords
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
keyword_id | 关键字id | |||
keyword | 关键字 | |||
nature | 性质 (-2, -1, 0, 1, 2) |
内容信息表 Op_content_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
title | 标题 | |||
content | 内容 | |||
content_spilt | 内容分词,词语和词语之前用逗号分割 | |||
author | 作者 | |||
url | 原文url | |||
origin | 来源 | |||
watched_count | 观看数 | |||
comment_count | 评论数 | |||
share_count | 分享数 | |||
praise_count | 点赞数 | |||
release_time | 发布时间 | |||
record_time | 记录时间 | |||
site_id | 网站id | |||
keyword_id | varchar | 关键词id(多个关键词id用逗号分割) | ||
nature | 性质 (-2, -1, 0, 1, 2) | |||
classify | 类别(如:热点,网民话题) | |||
read_status | 读取状态(0 没读, 1读取) |
app信息表 OpApp_site_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
site_id | app id | |||
name | 标题 | |||
summary | 简介 | |||
update_info | 更新信息 | |||
author | 作者 | |||
url | 原文url | |||
app_url | app下载的url | |||
image_url | 图片url(多个url逗号分割) | |||
classify | 分类 | |||
size | 大小 | |||
tag | 版本 | |||
platform | 平台(ios / android) | |||
download_count | 下载次数 | |||
release_time | 发布时间 | |||
record_time | 记录时间 | |||
read_status | 读取状态(0 没读, 1读取) |
urls表 OpApp_urls
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
url | 网址 | |||
depth | int | 层级 | ||
status | int | 状态(0 todo, 1 doing, 2 done, 3 exception) | ||
remark | url备注 | |||
site_id | 网站id |
关键词表 OpApp_keywords
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
keyword_id | ||||
keyword | ||||
nature | 性质 (-2, -1, 0, 1, 2) |
内容信息表 OpApp_content_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
title | 标题 | |||
content | 内容 | |||
content_spilt | 内容分词,词语和词语之前用逗号分割 | |||
author | 作者 | |||
url | 原文url | |||
origin | 来源 | |||
watched_count | 观看数 | |||
comment_count | 评论数 | |||
share_count | 分享数 | |||
praise_count | 点赞数 | |||
release_time | 发布时间 | |||
record_time | 记录时间 | |||
site_id | 网站id | |||
keyword_id | varchar | 关键词id(多个关键词id用逗号分割) | ||
nature | 性质 (-2, -1, 0, 1, 2) | |||
classify | 类别(如:热点,网民话题) | |||
read_status | 读取状态(0 没读, 1读取) |
网站表 OpWB_site_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
site_id | 网站id | |||
name | 网站名 | |||
domain | 域名 | |||
url | 网址 | |||
ip | 服务器ip | |||
address | 服务器地址 | |||
video_license | 网络视听许可证 | |||
public_safety | 公安备案号 | |||
icp | ICP号 | |||
read_status | 读取状态 | |||
record_time | 记录时间 |
urls表 OpWB_urls
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
url | 网址 | |||
depth | int | 层级 | ||
status | int | 状态(0 todo, 1 doing, 2 done, 3 exception) | ||
remark | url备注 | |||
site_id | 网站id |
关键词表 OpWB_keywords
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
keyword_id | ||||
keyword | ||||
nature | 性质 (-2, -1, 0, 1, 2) |
内容信息表 OpWB_content_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
title | 标题 | |||
content | 内容 | |||
content_spilt | 内容分词,词语和词语之前用逗号分割 | |||
author | 作者 | |||
url | 原文url | |||
origin | 来源 | |||
watched_count | 观看数 | |||
comment_count | 评论数 | |||
share_count | 分享数 | |||
praise_count | 点赞数 | |||
release_time | 发布时间 | |||
record_time | 记录时间 | |||
site_id | 网站id | |||
keyword_id | varchar | 关键词id(多个关键词id用逗号分割) | ||
nature | 性质 (-2, -1, 0, 1, 2) | |||
classify | 类别(如:热点,网民话题) | |||
read_status | 读取状态(0 没读, 1读取) |
app信息表 VAApp_site_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
site_id | app id | |||
name | 标题 | |||
summary | 简介 | |||
update_info | 更新信息 | |||
author | 作者 | |||
url | 原文url | |||
app_url | app下载的url | |||
image_url | 图片url(多个url逗号分割) | |||
classify | 分类 | |||
size | 大小 | |||
tag | 版本 | |||
platform | 平台(ios / android) | |||
download_count | 下载次数 | |||
release_time | 发布时间 | |||
record_time | 记录时间 | |||
read_status | 读取状态(0 没读, 1读取) |
urls表 VAApp_urls
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
url | 网址 | |||
depth | int | 层级 | ||
status | int | 状态(0 todo, 1 doing, 2 done, 3 exception) | ||
remark | url备注 | |||
site_id | 网站id |
敏感信息表 VAApp_sensitive_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
sensitive_id | 敏感事件id | |||
sensitive_name | 敏感事件名 | |||
keywords | 关键字 (逗号分割) |
内容信息表 VAApp_content_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
title | 标题 | |||
content | 内容 | |||
author | 作者 | |||
url | 原文url | |||
video_url | 视频url | |||
image_url | 图片url(多个url逗号分割) | |||
origin | 来源 | |||
watched_count | 观看数 | |||
comment_count | 评论数 | |||
share_count | 分享数 | |||
praise_count | 点赞数 | |||
release_time | 发布时间 | |||
record_time | 记录时间 | |||
site_id | 网站id | |||
sensitive_id | varchar | 敏感信息id(多个敏感信息id用逗号分割) | ||
read_status | 读取状态(0 没读, 1读取) |
网站表 VA_site_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
site_id | 网站id | |||
name | 网站名 | |||
domain | 域名 | |||
url | 网址 | |||
ip | 服务器ip | |||
address | 服务器地址 | |||
video_license | 网络视听许可证 | |||
public_safety | 公安备案号 | |||
icp | ICP号 | |||
read_status | 读取状态 | |||
record_time | 记录时间 |
urls表 VA_urls
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
url | 网址 | |||
depth | int | 层级 | ||
status | int | 状态(0 todo, 1 doing, 2 done, 3 exception) | ||
remark | url备注 | |||
site_id | 网站id |
敏感信息表 VA_sensitive_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
sensitive_id | 敏感事件id | |||
sensitive_name | 敏感事件名 | |||
keywords | 关键字 (逗号分割) |
内容信息表 VA_content_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
title | 标题 | |||
content | 内容 | |||
author | 作者 | |||
url | 原文url | |||
video_url | 视频url | |||
image_url | 图片url(多个url逗号分割) | |||
origin | 来源 | |||
watched_count | 观看数 | |||
comment_count | 评论数 | |||
share_count | 分享数 | |||
praise_count | 点赞数 | |||
release_time | 发布时间 | |||
record_time | 记录时间 | |||
site_id | 网站id | |||
sensitive_id | varchar | 敏感信息id(多个敏感信息id用逗号分割) | ||
read_status | 读取状态(0 没读, 1读取) |
app信息表 LiveApp_site_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
site_id | app id | |||
name | 标题 | |||
summary | 简介 | |||
update_info | 更新信息 | |||
author | 作者 | |||
url | 原文url | |||
app_url | app下载的url | |||
image_url | 图片url(多个url逗号分割) | |||
classify | 分类 | |||
size | 大小 | |||
tag | 版本 | |||
platform | 平台(ios / android) | |||
download_count | 下载次数 | |||
release_time | 发布时间 | |||
record_time | 记录时间 | |||
read_status | 读取状态(0 没读, 1读取) |
urls表 LiveApp_urls
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
url | 网址 | |||
depth | int | 层级 | ||
status | int | 状态(0 todo, 1 doing, 2 done, 3 exception) | ||
remark | url备注 | |||
site_id | 网站id |
主播信息表 LiveApp_anchor_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
name | 主播名 | |||
image_url | 贴图 | |||
sex | 性别 | |||
age | 年龄 | |||
address | 地区 | |||
fans_count | 粉丝数 | |||
watched_count | 观众数 | |||
room_id | 房间号 | |||
room_url | 房间连接 | |||
video_path | 直播视频流路径 | |||
record_time | 记录时间 | |||
site_id | 网站id | |||
live_view | 直播状态(是否在直播 0 未直播 1 直播中) | |||
read_status | 读取状态(0 没读, 1读取) |
网站表 WP_site_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
site_id | 网站id | |||
name | 网站名 | |||
domain | 域名 | |||
url | 网址 | |||
ip | 服务器ip | |||
address | 服务器地址 | |||
video_license | 网络视听许可证 | |||
public_safety | 公安备案号 | |||
icp | ICP号 | |||
read_status | 读取状态 | |||
record_time | 记录时间 |
urls表 WP_urls
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
url | 网址 | |||
depth | int | 层级 | ||
status | int | 状态(0 todo, 1 doing, 2 done, 3 exception) | ||
remark | url备注 | |||
site_id | 网站id |
敏感信息表 WP_sensitive_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
sensitive_id | 敏感事件id | |||
sensitive_name | 敏感事件名 | |||
keywords | 关键字 (逗号分割) |
内容信息表 WP_content_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
title | 标题 | |||
url | 原文url | |||
article_type | 作品类型 | |||
episodes | 集数 | |||
score | 评分 | |||
subscribe_count | 订阅数 | |||
author | 作者 | |||
release_time | 发布时间 | |||
update_time | 更新时间 | |||
image_url | 图片url(多个url逗号分割) | |||
watched_count | 观看数 | |||
comment_count | 评论数 | |||
charge_type | 收费类型 | |||
is_finished | 是否完结 | |||
origin | 来源 | |||
abstract | 简介 | |||
content | 内容 | |||
record_time | 记录时间 | |||
site_id | 网站id | |||
sensitive_id | varchar | 敏感信息id(多个敏感信息id用逗号分割) | ||
read_status | 读取状态(0 没读, 1读取) |
分集信息表 WP_content_episode_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
title | 标题 | |||
content_id | ||||
video_url | 视频url | |||
image_url | 图片url | |||
watched_count | 观看数 | |||
comment_count | 评论数 | |||
release_time | 发布时间 | |||
record_time | 记录时间 | |||
read_status | 读取状态(0 没读, 1读取) |
网站表 GameApp_site_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
site_id | 网站id | |||
name | 网站名 | |||
domain | 域名 | |||
url | 网址 | |||
ip | 服务器ip | |||
address | 服务器地址 | |||
video_license | 网络视听许可证 | |||
public_safety | 公安备案号 | |||
icp | ICP号 | |||
read_status | 读取状态 | |||
record_time | 记录时间 |
urls表 GameApp_urls
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
url | 网址 | |||
depth | int | 层级 | ||
status | int | 状态(0 todo, 1 doing, 2 done, 3 exception) | ||
remark | url备注 | |||
site_id | 网站id |
敏感信息表 GameApp_sensitive_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
sensitive_id | 敏感事件id | |||
sensitive_name | 敏感事件名 | |||
keywords | 关键字 (逗号分割) |
字典表 GameApp_classify
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
_id | id | |||
classify | 分类 |
内容信息表 GameApp_content_info
(应用宝、安卓市场、百度手机助手、360手机助手)
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
title | 标题 | |||
summary | 简介 | |||
update_info | 更新信息 | |||
socre | 评分 | |||
author | 作者 | |||
url | 原文url | |||
app_url | app下载的url | |||
image_url | 图片url(多个url逗号分割) | |||
classify_id | 分类 | |||
software_size | 大小 | |||
tag | 版本 | |||
platform | 平台(ios / android) | |||
download_count | 下载次数 | |||
release_time | 发布时间 | |||
record_time | 记录时间 | |||
site_id | 网站id | |||
sensitive_id | varchar | 敏感信息id(多个敏感信息id用逗号分割) | ||
read_status | 读取状态(0 没读, 1读取) |
网站表 PROGRAM_site_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
site_id | 网站id | |||
name | 网站名 | |||
domain | 域名 | |||
url | 网址 | |||
ip | 服务器ip | |||
address | 服务器地址 | |||
video_license | 网络视听许可证 | |||
public_safety | 公安备案号 | |||
icp | ICP号 | |||
read_status | 读取状态 | |||
record_time | 记录时间 |
urls表 PROGRAM_urls
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
url | 网址 | |||
depth | int | 层级 | ||
status | int | 状态(0 todo, 1 doing, 2 done, 3 exception) | ||
remark | url备注 | |||
site_id | 网站id |
视频信息表(以部为单位) PROGRAM_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
_id | 节目id | |||
site_id | int | 网站id | ||
read_status | int | 导出状态(0 todo, 1 done) | ||
record_time | 记录时间 | |||
release_time | 发布时间 | |||
episode | 集数 | |||
actors | 演员 | |||
directors | 导演 | |||
program_name | 节目名称 | |||
program_url | 视频地址 | |||
summary | 摘要 | |||
image_url | 图片地址 |
分集信息表(以集为单位)PROGRAM_EPISODE_info
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
_id | 集id | |||
program_id | 节目id | |||
episode_num | int | 当前集数 | ||
time_length | str | 本集时长 | ||
episode_name | 节目名称 | |||
download_status | 下载状态 | |||
download_url | 下载地址 | |||
episode_url | 节目链接 | |||
record_time | 记录时间 | |||
summary | 简介 | |||
image_url | 图片地址 |
微信公众号 WWA_wechart_official_accounts
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
id | 主键id | |||
name | 公众号名称 | |||
account_id | 公众号账号 | |||
account_url | 账号url | |||
image_url | 贴图 | |||
article_count | 文章数量 | |||
summary | 简介 | |||
certification | 微信认证 | |||
is_verified | 是否加V(是否认证) | |||
barcode | 二维码 | |||
read_status | 导出状态 | |||
record_time | 记录时间 |
微信公众号文章 WWA_wechat_article
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
id | 主键id | |||
official_accounts_id | 公众号id | |||
title | 标题 | |||
summary | 简介 | |||
image_url | 贴图地址 | |||
article_url | 文章地址 | |||
release_time | 发布时间 | |||
content | 内容 | |||
video_url | 视频地址 | |||
record_time | 记录时间 | |||
read_status | 导出状态 |
微博账号表 WWA_webo_account
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
name | 名字 | |||
image_url | 贴图地址 | |||
summary | 简介 | |||
fans_count | 粉丝数 | |||
verified_reason | 微博认证 | |||
is_verified | 是否认证 | |||
url | 账号url | |||
follow_count | 关注数 | |||
sex | 性别(0 男 1 女) |
微博文章表 WWA_webo_article
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
name | 名字 | |||
account_id | ||||
head_image | 头像 | |||
is_verified | 是否认证 | |||
release_time | 发布时间 | |||
come_from | 来自 | |||
content | 内容 | |||
image_url | 图片地址 | |||
video_url | 视频地址 | |||
transpond_count | 转发数 | |||
praise_count | 点赞数 |
特定网站的特征表 FeaVideo_site
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
domain | 域名 | |||
video_fea | 有视频的特征 |
正负极特征表 FeaVideo_judge
只判断标题和内容是否符合
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
video_fea | 有视频的特征 | |||
not_video_fea | 没有视频的特征 |
通用的特征表 FeaVideo_common
根据html源代码中是否符合特征来判断
字段名 | 数据类型 | 长度 | 说明 | 描述 |
---|---|---|---|---|
video_fea | 有视频的特征 |