From 1ffc0a587dadacfa7637490db0f60c54d7bfd407 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E9=99=88=E6=99=AF=E6=AC=A3?= Date: Sat, 28 Jan 2023 19:52:54 +0800 Subject: [PATCH 1/5] ll --- docs/zh/use_case/talkingdata_demo.md | 9 +++------ 1 file changed, 3 insertions(+), 6 deletions(-) diff --git a/docs/zh/use_case/talkingdata_demo.md b/docs/zh/use_case/talkingdata_demo.md index 5297047a1d6..1c1906ff84d 100755 --- a/docs/zh/use_case/talkingdata_demo.md +++ b/docs/zh/use_case/talkingdata_demo.md @@ -1,13 +1,10 @@ # TalkingData 广告欺诈检测(OpenMLDB + XGboost) -我们将演示如何使用 [OpenMLDB](https://github.com/4paradigm/OpenMLDB) 与其他开源软件一起开发一个完整的机器学习应用程序,完成 TalkingData 广告欺诈检测挑战(有关此挑战的更多信息请参阅 [Kaggle](https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/overview))。 +本文将演示如何使用 OpenMLDB 与开源软件 XGboost 一起开发一个完整的机器学习应用,完成 [TalkingData 广告欺诈检测挑战](https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/overview))。 +## 准备工作 - - -## 1 准备工作 - -### 1.1 下载并安装OpenMLDB +### 1.1 下载并安装 OpenMLDB #### 1.1.1 在 Docker 中运行 From 661062767d3512b58fab42feffa8bb9b101b8098 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E9=99=88=E6=99=AF=E6=AC=A3?= Date: Sat, 28 Jan 2023 20:15:45 +0800 Subject: [PATCH 2/5] ll --- docs/zh/conf.py | 2 +- docs/zh/use_case/talkingdata_demo.md | 55 ++++++++++++++-------------- 2 files changed, 28 insertions(+), 29 deletions(-) diff --git a/docs/zh/conf.py b/docs/zh/conf.py index d1c6aa699c1..c7acb2d8e89 100644 --- a/docs/zh/conf.py +++ b/docs/zh/conf.py @@ -140,7 +140,7 @@ # Whitelist pattern for branches (set to None to ignore all branches) # include branch that is main or v{X}.{Y} -smv_branch_whitelist = r"^(main|v\d+\.\d+)$" +smv_branch_whitelist = r"^(main|usecase3)$" # allow remote origin or upstream smv_remote_whitelist = r"^(origin|upstream)$" diff --git a/docs/zh/use_case/talkingdata_demo.md b/docs/zh/use_case/talkingdata_demo.md index 1c1906ff84d..32bb793dd0d 100755 --- a/docs/zh/use_case/talkingdata_demo.md +++ b/docs/zh/use_case/talkingdata_demo.md @@ -1,22 +1,22 @@ # TalkingData 广告欺诈检测(OpenMLDB + XGboost) -本文将演示如何使用 OpenMLDB 与开源软件 XGboost 一起开发一个完整的机器学习应用,完成 [TalkingData 广告欺诈检测挑战](https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/overview))。 +本文将演示如何使用 OpenMLDB 与开源软件 XGboost 联合开发一个完整的机器学习应用,完成 [TalkingData 广告欺诈检测挑战](https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/overview))。 -## 准备工作 +## 准备 -### 1.1 下载并安装 OpenMLDB +本文基于 OpenMLDB CLI 进行开发和部署,首先需要下载样例数据并且启动 OpenMLDB CLI。推荐使用 Docker 镜像来快速体验。 -#### 1.1.1 在 Docker 中运行 +- Docker 版本:>= 18.03 -我们建议您使用docker来运行此 Demo。OpenMLDB 和依赖项都已安装完毕。 +### 拉取镜像 -**启动 Docker** +在命令行执行以下命令拉取 OpenMLDB 镜像,并启动 Docker 容器: -``` +```bash docker run -it 4pdosc/openmldb:0.7.1 bash ``` -#### 1.1.2 在本地运行 +### 在本地运行 下载 OpenMLDB 服务器 pkg,版本>=0.5.0。 @@ -26,51 +26,50 @@ docker run -it 4pdosc/openmldb:0.7.1 bash pip install pandas xgboost==1.4.2 sklearn tornado "openmldb>=0.5.0" requests ``` -### 1.2 准备数据 +### 准备数据 -我们只使用 `train.csv` 的前10000行作为示例数据,请参见[train\_sample.csv](https://github.com/4paradigm/OpenMLDB/tree/main/demo/talkingdata-adtracking-fraud-detection)。 +本例使用 `train.csv` 的前 10000 行作为示例数据,请参见 [train\_sample.csv](https://github.com/4paradigm/OpenMLDB/tree/main/demo/talkingdata-adtracking-fraud-detection)。 -如果你想要测试完整数据,请通过以下方式下载 +如果你想要测试完整数据,请通过以下方式下载: ``` kaggle competitions download -c talkingdata-adtracking-fraud-detection ``` -并将数据解压缩到 `demo/talkingdata-adtracking-fraud-detection/data` 。然后调用 [train\_and\_serve.py](https://github.com/4paradigm/OpenMLDB/blob/main/demo/talkingdata-adtracking-fraud-detection/train_and_serve.py)中的 `cut_data()` 方法,制作新的csv样本用于训练。 +并将数据解压缩到 `demo/talkingdata-adtracking-fraud-detection/data`。然后调用 [train\_and\_serve.py](https://github.com/4paradigm/OpenMLDB/blob/main/demo/talkingdata-adtracking-fraud-detection/train_and_serve.py) 中的 `cut_data()` 方法,制作新的 CSV 数据样本用于训练。 +### 启动 OpenMLDB 集群 -### 1.3 启动 OpenMLDB 集群 +镜像内提供了 init.sh 脚本帮助用户快速启动集群。 ``` /work/init.sh ``` -### 1.4 启动预测服务器 +### 启动预测服务器 -即使您还没有部署预测服务器,您也可以启动它,使用选项 `--no-init`。 +即使还没有部署预测服务器,你也可以使用选项 `--no-init` 启动它。 ``` python3 /work/talkingdata/predict_server.py --no-init > predict.log 2>&1 & ``` - ```{tip} -- 训练完毕后,您可以发送 post 请求至 `:/update` 更新预测服务器。 -- 您可以运行 `pkill -9 python3` 命令,关闭后台预测服务器。 +- 训练完毕后,可以发送 post 请求至 `:/update` 更新预测服务器。 +- 可以运行 `pkill -9 python3` 命令,关闭后台预测服务器。 ``` - -## 2 训练并应用 +## 训练并应用 ``` cd /work/talkingdata python3 train_and_serve.py ``` -我们使用 OpenMLDB 提取特征,并通过 xgboost 进行训练,请参见[train\_and\_serve.py](https://github.com/4paradigm/OpenMLDB/blob/main/demo/talkingdata-adtracking-fraud-detection/train_and_serve.py)。 +使用 OpenMLDB 提取特征,并通过 XGboost 训练机器学习模型,请参见 [train\_and\_serve.py](https://github.com/4paradigm/OpenMLDB/blob/main/demo/talkingdata-adtracking-fraud-detection/train_and_serve.py)。程序具体内容有如下步骤: 1. 将数据加载到离线存储 -2. 离线特征提取; +2. 离线特征提取 * ip-day-hour 组合的点击次数 -> 窗口期 1h * ip-app 组合的点击次数 -> 无限窗口期 * ip-app-os 组合的点击次数 -> 无限窗口期 @@ -79,21 +78,21 @@ python3 train_and_serve.py 5. 加载数据到在线存储 6. 更新预测服务器上的模型 -## 3 预测 +## 预测 -向预测服务器发送post请求 `:/predict` 即可进行一次预测。或者您也可以运行下面的python脚本。 +向预测服务器发送 POST 请求 `:/predict` 即可进行一次预测。或者也可以运行下面的 Python 脚本。 ``` python3 predict.py ``` -## 4 提示 +## 提示 -预构建的 xgboost python wheel 可能与您计算机中的 openmldb python sdk 不兼容,可能会出现该报错: +预构建的 XGboost python wheel 可能与您计算机中的 openmldb python sdk 不兼容,可能会出现该报错: `train\_and\_serve.py core dump at SetGPUAttribute...` -通过源代码构建xgboost可解决该问题:进入 xgboost 源代码所在的目录,并执行 +通过源代码构建 XGboost 可解决该问题:进入 XGhboost 源代码所在的目录,并执行: `cd python-package && python setup.py install` -或者构建 wheel : +或者构建 wheel: `python setup.py bdist_wheel` From f3040a82b5e02c432e2a292449611770eaea5b76 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E9=99=88=E6=99=AF=E6=AC=A3?= Date: Sat, 28 Jan 2023 20:24:34 +0800 Subject: [PATCH 3/5] 99 --- docs/zh/use_case/talkingdata_demo.md | 19 ++++++++++++------- 1 file changed, 12 insertions(+), 7 deletions(-) diff --git a/docs/zh/use_case/talkingdata_demo.md b/docs/zh/use_case/talkingdata_demo.md index 32bb793dd0d..97af4faad87 100755 --- a/docs/zh/use_case/talkingdata_demo.md +++ b/docs/zh/use_case/talkingdata_demo.md @@ -1,6 +1,6 @@ # TalkingData 广告欺诈检测(OpenMLDB + XGboost) -本文将演示如何使用 OpenMLDB 与开源软件 XGboost 联合开发一个完整的机器学习应用,完成 [TalkingData 广告欺诈检测挑战](https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/overview))。 +本文将演示如何使用 OpenMLDB 与开源软件 XGboost 联合开发一个完整的机器学习应用,完成 [TalkingData 广告欺诈检测挑战](https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/overview)。 ## 准备 @@ -28,7 +28,7 @@ pip install pandas xgboost==1.4.2 sklearn tornado "openmldb>=0.5.0" requests ### 准备数据 -本例使用 `train.csv` 的前 10000 行作为示例数据,请参见 [train\_sample.csv](https://github.com/4paradigm/OpenMLDB/tree/main/demo/talkingdata-adtracking-fraud-detection)。 +本例使用 `train.csv` 的前 10000 行作为示例数据,详情请参见代码 [train\_sample.csv](https://github.com/4paradigm/OpenMLDB/tree/main/demo/talkingdata-adtracking-fraud-detection)。 如果你想要测试完整数据,请通过以下方式下载: @@ -48,7 +48,7 @@ kaggle competitions download -c talkingdata-adtracking-fraud-detection ### 启动预测服务器 -即使还没有部署预测服务器,你也可以使用选项 `--no-init` 启动它。 +即使还没有部署预测服务器,你也可以使用选项 `--no-init` 启动。 ``` python3 /work/talkingdata/predict_server.py --no-init > predict.log 2>&1 & @@ -88,11 +88,16 @@ python3 predict.py ## 提示 -预构建的 XGboost python wheel 可能与您计算机中的 openmldb python sdk 不兼容,可能会出现该报错: -`train\_and\_serve.py core dump at SetGPUAttribute...` +预构建的 XGboost python wheel 可能与您计算机中的 openmldb python sdk 不兼容,可能会出现该报错:`train\_and\_serve.py core dump at SetGPUAttribute...` 通过源代码构建 XGboost 可解决该问题:进入 XGhboost 源代码所在的目录,并执行: -`cd python-package && python setup.py install` + +```bash +cd python-package && python setup.py install +``` 或者构建 wheel: -`python setup.py bdist_wheel` + +```bash +python setup.py bdist_wheel +``` From 35cccbb5e0790aa27fac1b6942e667e10c13d7fb Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E9=99=88=E6=99=AF=E6=AC=A3?= Date: Sat, 28 Jan 2023 20:24:57 +0800 Subject: [PATCH 4/5] 99 --- docs/zh/conf.py | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/zh/conf.py b/docs/zh/conf.py index c7acb2d8e89..d1c6aa699c1 100644 --- a/docs/zh/conf.py +++ b/docs/zh/conf.py @@ -140,7 +140,7 @@ # Whitelist pattern for branches (set to None to ignore all branches) # include branch that is main or v{X}.{Y} -smv_branch_whitelist = r"^(main|usecase3)$" +smv_branch_whitelist = r"^(main|v\d+\.\d+)$" # allow remote origin or upstream smv_remote_whitelist = r"^(origin|upstream)$" From 0bccf76980d478fba3d28fe48ef57f64f75d207e Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E9=99=88=E6=99=AF=E6=AC=A3?= <117905435+selenachenjingxin@users.noreply.github.com> Date: Sat, 28 Jan 2023 21:12:01 +0800 Subject: [PATCH 5/5] Update talkingdata_demo.md --- docs/zh/use_case/talkingdata_demo.md | 12 +----------- 1 file changed, 1 insertion(+), 11 deletions(-) diff --git a/docs/zh/use_case/talkingdata_demo.md b/docs/zh/use_case/talkingdata_demo.md index 97af4faad87..dbbca4b113f 100755 --- a/docs/zh/use_case/talkingdata_demo.md +++ b/docs/zh/use_case/talkingdata_demo.md @@ -10,22 +10,12 @@ ### 拉取镜像 -在命令行执行以下命令拉取 OpenMLDB 镜像,并启动 Docker 容器: +在命令行执行以下命令拉取 OpenMLDB 镜像,并启动 Docker 容器,OpenMLDB 和依赖项都已安装: ```bash docker run -it 4pdosc/openmldb:0.7.1 bash ``` -### 在本地运行 - -下载 OpenMLDB 服务器 pkg,版本>=0.5.0。 - -安装所有依赖项: - -``` -pip install pandas xgboost==1.4.2 sklearn tornado "openmldb>=0.5.0" requests -``` - ### 准备数据 本例使用 `train.csv` 的前 10000 行作为示例数据,详情请参见代码 [train\_sample.csv](https://github.com/4paradigm/OpenMLDB/tree/main/demo/talkingdata-adtracking-fraud-detection)。