-
Notifications
You must be signed in to change notification settings - Fork 1.6k
部署常见问题
-
部署FATE,CentOS是必须吗 可以用Debian之类的其他linux发行版吗
当前发布版本包括代码以及部署脚本针对centos做了比较完备的测试,不过系统没有要求特定的发行版特性,理论上其他发行版也可以运行,可能需要定制修改依赖包以及部署脚本,还可以使用Docker版本, 另外,针对Ubuntu的测试,在我们测试计划当中,后续版本推出 -
cluster 部署,服务器要求:16core/32G memory,这是建议配置,还是最低配置呢?
建议生产配置,根据数据量决定,如果只是简单小数据量测试,4核8G就够,如果实际使用,建议尽量保持16核32G. -
部署完后,按文档说明进行测试的时候出了"'encoding' is an invalid keyword argument for this function"?
python版本不对,请安装官网要求的python版本 -
单方,多方之间部署,需要ssh免密、mysql访问授权、以及关闭防火墙吗?
单方和多方的部署都需要这些操作的,执行机器到待部署节点需要做免密,mysql需要授权给fateflow,roll所在服务器的访问权限 -
如果我不想用默认的app用户,以及相应的目录,只用改这个configurations.sh配置文件就可以了吧?我用自己的用户做免密,且这个用户有sudo权限,然后改configurations.sh配置文件就可以了是吧?
是的,改这个configurations.sh配置文件即可 同时部署前做免密是和这个非app用户做免密,这个用户要有sudo权限 -
toy测试显示任务处于waiting状态,问题可能如下:
- 检查redis是否是否启动或者配置是否有问题,如果redis有问题,fateflow的日志里会有报错。
- Fateflow最多支持5个任务同时在跑,可以按如下方法把任务杀掉: python fate_flow_client.py -f query_job -s waiting | grep f_job_id | awk '{print $2}' | awk -F '"' '{print $2}' | xargs -n1 python fate_flow_client.py -f stop_job -j
- 重启fateflow
-
C++编译报错
执行以下命令: wget https://webank-ai-1251170195.cos.ap-guangzhou.myqcloud.com/third_party_source.tar.gz mv third_party_source.tar.gz eggroll/storage/storage-service-cxx rm -rf third_party tar -xzf third_party_source.tar.gz cd third_party sh make.sh cd ../ make -
processor没有成功启动
排查方法:- 检查egg.properties的配置;
- 检查用户有没有修改过services.sh,因为有一个配置应该是需要修改的。
- 在eggroll-egg.log中找到start cmd,设置好PYTHONPATH后,单独拎出来运行看有没有问题。
-
如果重新部署,本机除了fate没有其他服务,可以把所有服务都kill掉,以免残留进程影响:
ps -ef|grep java | awk '{print $2}'|xargs kill -9 ps -ef|grep python |awk '{print $2}'|xargs kill -9 ps -ef|grep process |awk '{print $2}'|xargs kill -9 ps -ef|grep redis |awk '{print $2}'|xargs kill -9 ps -ef|grep storage-serv |awk '{print $2}'|xargs kill -9 ps -ef|grep mysqld |awk '{print $2} -
toy测试报错: TypeError: must be real number, not NoneType
原因可能是,guest拿host的结果为None,host的eggrol存在问题。
11.FATE模块与端口介绍 federation联邦通讯(9394),proxy通讯转发(9370),fateboard可视化展示(8080),roll作业提交和数据汇总模块(8011),meta-service元数据存储模块(8590),storage-service-cxx节点存储模块(7778),egg用户自定义模块(7888),fate_flow任务管理模块(任务训练/上传下载数据,发布模型)-9360/9380。