Skip to content

部署常见问题

paulbaogang edited this page Mar 16, 2020 · 14 revisions
  1. 部署FATE,CentOS是必须吗 可以用Debian之类的其他linux发行版吗
    当前发布版本包括代码以及部署脚本针对centos做了比较完备的测试,不过系统没有要求特定的发行版特性,理论上其他发行版也可以运行,可能需要定制修改依赖包以及部署脚本,还可以使用Docker版本, 另外,针对Ubuntu的测试,在我们测试计划当中,后续版本推出

  2. cluster 部署,服务器要求:16core/32G memory,这是建议配置,还是最低配置呢?
    建议生产配置,根据数据量决定,如果只是简单小数据量测试,4核8G就够,如果实际使用,建议尽量保持16核32G.

  3. 部署完后,按文档说明进行测试的时候出了"'encoding' is an invalid keyword argument for this function"?
    python版本不对,请安装官网要求的python版本

  4. 单方,多方之间部署,需要ssh免密、mysql访问授权、以及关闭防火墙吗?
    单方和多方的部署都需要这些操作的,执行机器到待部署节点需要做免密,mysql需要授权给fateflow,roll所在服务器的访问权限

  5. 如果我不想用默认的app用户,以及相应的目录,只用改这个configurations.sh配置文件就可以了吧?我用自己的用户做免密,且这个用户有sudo权限,然后改configurations.sh配置文件就可以了是吧?
    是的,改这个configurations.sh配置文件即可 同时部署前做免密是和这个非app用户做免密,这个用户要有sudo权限

  6. toy测试显示任务处于waiting状态,问题可能如下:

    • 检查redis是否是否启动或者配置是否有问题,如果redis有问题,fateflow的日志里会有报错。
    • Fateflow最多支持5个任务同时在跑,可以按如下方法把任务杀掉: python fate_flow_client.py -f query_job -s waiting | grep f_job_id | awk '{print $2}' | awk -F '"' '{print $2}' | xargs -n1 python fate_flow_client.py -f stop_job -j
    • 重启fateflow
  7. C++编译报错
    执行以下命令: wget https://webank-ai-1251170195.cos.ap-guangzhou.myqcloud.com/third_party_source.tar.gz mv third_party_source.tar.gz eggroll/storage/storage-service-cxx rm -rf third_party tar -xzf third_party_source.tar.gz cd third_party sh make.sh cd ../ make

  8. processor没有成功启动
    排查方法:

    • 检查egg.properties的配置;
    • 检查用户有没有修改过services.sh,因为有一个配置应该是需要修改的。
    • 在eggroll-egg.log中找到start cmd,设置好PYTHONPATH后,单独拎出来运行看有没有问题。
  9. 如果重新部署,本机除了fate没有其他服务,可以把所有服务都kill掉,以免残留进程影响:
    ps -ef|grep java | awk '{print $2}'|xargs kill -9 ps -ef|grep python |awk '{print $2}'|xargs kill -9 ps -ef|grep process |awk '{print $2}'|xargs kill -9 ps -ef|grep redis |awk '{print $2}'|xargs kill -9 ps -ef|grep storage-serv |awk '{print $2}'|xargs kill -9 ps -ef|grep mysqld |awk '{print $2}

  10. toy测试报错: TypeError: must be real number, not NoneType
    原因可能是,guest拿host的结果为None,host的eggrol存在问题。

11.FATE模块与端口介绍

federation联邦通讯(9394),proxy通讯转发(9370),fateboard可视化展示(8080),roll作业提交和数据汇总模块(8011),meta-service元数据存储模块(8590),storage-service-cxx节点存储模块(7778),egg用户自定义模块(7888),fate_flow任务管理模块(任务训练/上传下载数据,发布模型)-9360/9380。

Clone this wiki locally