Skip to content

alkalimc/H100-Server-Guidebook

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 

Repository files navigation

yuhaolab-H100服务器使用手册

获取用户账号、申请电源操作、更换环境组件应在管理群内申请 其他高权限操作的申请应联系微信群内的管理员

本手册用于指导用户访问服务器、部署环境及提交计算负载,在使用服务器之前,应注意以下操作规范:

  • 不得在服务器上部署任何未经授权的允许在内网外连接服务器的服务,包括但不限于frp服务和支持内网外访问的远程桌面服务
  • 不得进行未经授权的网络操作,包括但不限于开放或关闭端口,修改网卡配置,重启网络服务等
  • 避免使用sudo功能,如果无法避免,请在使用前确认命令的执行对象,一般不得在root用户下部署任何环境
  • 所有密钥必须足够复杂以避免安全性问题,不得使用安全欠佳的终端设备与服务器建立连接
  • 未经特殊说明服务器内的一切数据禁止分发,授权分发的内容请传至终端后再进行进一步操作

注意:

  • 应使用Anaconda部署python环境,一般不得在服务器基础环境内安装pip包

  • 应使用SLURM部署长时计算任务,一般不得直接在终端下部署工作负载

  • 启用了HuggingFace镜像站的环境变量,可以通过/data/disk0/Service/hfd.sh调用镜像下载模型,参见hfd工具的使用

  • 一般应避免使用rm,以mv要删除的文件到/data/disk0/Trash下替代

  • 启用了fail2ban功能,因多次错误提交密钥而被误封请联系管理员或等待1h再次尝试与服务器建立连接

  • 管理员应避免直接在自己账号的ssh连接内通过su example切换到其他用户为其配置环境或排障,此举会临时继承自己环境中定义的环境变量到其他用户的环境中,导致出现未定义的问题

用户应先修改管理员提供的默认密钥为自己的强密钥

快速入门手册:

管理手册:

附录:

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •