"); //-->
本文分享自天翼云开发者社区《基于ubuntu系统部署FateLLM1.3.0》,作者:刘****阳
一、基础环境
本次测试是基于K8S集群管理的两个POD节点进行部署,软硬件信息如下:
服务器规格: CPU:8c80G GPU:V100/40G * 2
系统环境: ubuntu18.04-cuda11.7-deepspeed0.9.5
二、基础配置
1、安装基础依赖
apt-get updateapt-get install -y language-pack-en net-tools supervisor cron iputils-ping ansible openssh-server sudo vim straceservice ssh startservice ssh status
2、配置用户及权限
groupadd appsuseradd -s /bin/bash -g apps -d /home/app apppasswd app# 输入app用户密码# -----------------------------------------------# 配置app用户sudo权限vi /etc/sudoers.d/app# 添加内容app ALL=(ALL) ALL app ALL=(ALL) NOPASSWD: ALL Defaults !env_reset# 给文件sudoers文件增加写入权限chmod u+w /etc/sudoersvim /etc/sudoers# 在root ALL=(ALL) ALL下面追加:root ALL=(ALL) NOPASSWD: ALL app ALL=(ALL) ALL app ALL=(ALL) NOPASSWD: ALL# 删除写入权限chmod u-w /etc/sudoers# ------------------------------------------------# 配置自身免密登录su app ssh-keygen -t rsacat /home/app/.ssh/id_rsa.pub >>/home/app/.ssh/authorized_keyschmod 600 /home/app/.ssh/authorized_keys
3、创建文件目录并赋予权限
mkdir -pv /data/projects /data/temp /data/logs /data/soft /home/appchown -R app:apps /data/* /home/app
4、下载软件包
# 使用Ansible方式进行部署su appcd /data/soft/wget ****************************/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline.tar.gz# 解压文件cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline#安装fate所需的基础环境bash tools/install_base.sh
可以将基础步骤打包成镜像,分发到其余节点。
三、FateLLM框架安装
1、初始化
cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline# 在host节点初始化hostbash deploy/deploy.sh init -h="10000:XXX.XXX.XXX.XXX"# 在guest节点初始化guestbash deploy/deploy.sh init -g="9999:XXX.XXX.XXX.XXX"# 初始化后会在deploy/conf文件夹下生成conf文件,可配置安装的组件
2、生成ansible配置文件
cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline# 在host节点初始化hostbash deploy/deploy.sh render# 会生成var_files/prod文件夹# 各组件的用户密码可在此进行修改
3、进行部署操作
cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline# 在host节点和guest节点分别进行部署bash deploy/deploy.sh deploy# 安装部署日志提示无报错后,安装成功
4、进行基础测试
# 单边测试# host节点执行source /data/projects/fate/bin/init_env.sh
flow test toy -gid 10000 -hid 10000# guest节点执行source /data/projects/fate/bin/init_env.sh
flow test toy -gid 9999 -hid 9999# 执行成功后会返回正确结果(2)配置route_table# 在host节点添加guest路由信息vim /data/projects/fate/eggroll/conf/route_table.json
在路由信息中添加"9999":
{
"default":[
{
"port": XXXX, "ip": "XXX,XXX,XXX,XXX"
}
]
}# 同理在guest节点添加host信息(3)进行双边基础测试
flow test toy -gid 9999 -hid 10000# 注意在哪个节点执行哪个节点为guest专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
将AI工作负载推向边缘
消息称谷歌首款 AR 眼镜年内上市售卖,将在本周 I/O 大会发布
传说中的云计算、云存储是不是和这东西有关?
云计算掀起智能硬件变革的浪潮
“英伟达亲儿子”CoreWeave提交IPO申请,去年收入暴涨8倍
今年五月份是汽车电子,测试测量和云计算三大热点!
应用于数据中心(DataCenter)的 Smarter Solution
软件安全成为嵌入式云计算的热点
打造可靠的云存储技术
消费电子云方案
仿人型机器人能同时流利地说15种语言
全球云计算市场迎来重大价格调整
台积电AI产能:英伟达的需求可能迫使实现翻倍
云计算掀起智能硬件变革的浪潮
F5基于云计算平台的虚拟桌面连接解决方案
Upwind筹集2.5亿美元以实现云安全规模化
何为“云计算”
Android云计算之移动点餐系统分析与设计
边缘计算与人工智能(Edge AI)如何引领新一轮技术革命
由Memfault驱动的Nordic nRF Cloud荣获移动突破奖所颁发之年度云计算创新奖
美图获阿里巴巴2.5亿美元战略投资,将在AI与电商领域深度合作
云的数据安全与监控
基于云计算技术的日志管理系统
云计算驱动联想持续创新
IT有明天:大转换中的云计算
2016物联网大会宣传片
云计算在IC设计中的应用
基于云计算的元器件查找软件,包含海量在线数据库