设为首页收藏本站

ZMX - IT技术交流论坛 - 无限Perfect,追求梦想 - itzmx.com

 找回密码
 注册论坛

QQ登录

只需一步,快速开始

新浪微博账号登陆

只需一步,快速开始

用百度帐号登录

只需两步,快速登录

搜索
查看: 869|回复: 0

初见A100,折腾与试玩

[复制链接]

签到天数: 487 天

[LV.9]以坛为家II

发表于 2024/7/10 19:54 | 显示全部楼层 |阅读模式 |Google Chrome 126.0.0.0|Windows 10
天涯海角搜一下: 百度 谷歌 360 搜狗 有道 雅虎 必应 即刻
本帖最后由 王wang 于 2024/7/10 19:54 编辑

对于tesla a100,对于经常用显卡训练私炉的人不必多说,由于这个卡高端的性能,自然也是对它起了心思,只是奈何钱包不给力。
偶然一次看到小黄鱼上有人卖32gb的a100,于是就瞄上了这个专门为了自动驾驶而特制的a100,也就是pg199
后来赶上一个卖家仅卖4000块于是就入了手。
上图
屏幕截图 2024-07-10 193201.png
屏幕截图 2024-07-10 193254.png
pg199原装的扣具是不支持安装标准sxm2散热器的,因此卖家还很贴心的配置了一个转接扣具
屏幕截图 2024-07-10 193223.png
两个扣具都是铝质的,质量还是很好的。同时也可以看到这个扣具侧面有一个突起,它是为了给下面的电源管理芯片散热的
顶盖上可以看出它生产于21年第27周
如果你买的是一个正式版的话,这个丝印就不会有qs字样
只是不知道为什么到了我这里qs变成cs了,不过问题也不大。
屏幕截图 2024-07-10 193131.png
安装上转接板,上机测试。
测试平台的机箱刚刚设计完毕,代工厂还未完成制作,因此现在显得很草率
屏幕截图 2024-07-10 192948.png
但是这才是噩梦开始的时候
首先是压根不认卡,自检码跑个半天b2都不带卡一下的,而在设备管理器里也是毫不意外的啥也没出来。
那么接下来就是要排查问题了
首先拆下散热片后用手摸压根不发热,也就是说根本就没有上电
后来发现sxm2 接口是没有卡扣的,安装的是否到位全凭借螺丝提供的下压力是否足够(莫名幻视3647接口),而卖家发给我的并没有这些螺丝。
于是乎就开始找这种规格的螺丝。
如图
屏幕截图 2024-07-10 193031.png
长一些的安装在扣具的四个角上,短一些的安装在PCB的四个角上
接下来再次插电开机,果然可以在设备管理器可以看到未知设备了
那么接下来就要准备安装驱动了
理所当然的官方驱动肯定是不能正常安装的,因此就要对驱动进行魔改,这里选择最新的552驱动进行修改
论理说这个不会太困难,只需要获取硬件ID然后写入INF就行了,但是不知道为啥就是搞不定,在重复了四天毫无进展之后,我选择去海鲜市场找人求助,最终花了5块钱,人家没用10分钟就将魔改后的驱动发过来了(果然有的钱还是得让人家挣啊)
接下来行云流水禁用驱动强制签名后安装即可(这里建议检查一下里面有没有恶意代码,毕竟驱动的权限很高)
最终驱动管理器可以看到PG199了,这里附上一张GPUZ截图以及nvidia-smi
屏幕截图 2024-07-10 162838.png
屏幕截图 2024-07-10 163220.png
可以看到除了比A100少了8GB显存之外,它的基础频率比A100要高,但是似乎并不能睿频,而且后来根据nvidia-smi查看并不支持nvlink,估计是因为用的sxm2接口为了限制功耗就给砍掉了
这个卡是不支持OPENGL之类的图形功能的,因此很多压力测试软件是用不了的(由于一开始我没注意导致用甜甜圈给AST2500上了一晚上的强度)
后来也尝试安装了魔改的GRID驱动,但是这样虽然认卡但是设备管理器显示代码43,估计确实就是不支持安装。
接着来点喜闻乐见的AI绘画测试,这边使用了秋叶大佬制作的一键包,默认参数下,1秒一张图,1024*512分辨率下平均2秒一张图
至于后续的训练性能如何,就需要等到机箱到货后再说了
另外这个卡的待机功耗大约在40-55W之间,满载最高看到功耗达到441W,只不过由于手头没有硅脂导致散热器之间连接处是干的,所以温度很轻松就能突破105度并导致过热保护,因此441W可能并不是它的极限。
另外nvidia-smi查看的温度并不是热点温度,而保护温度是根据热点温度来的,因此一开始出现显示温度才80度就掉电重启的时候我一度以为是电源功率不足,后来才发现热点温度的事情

接着贴一下测试平台的配置
屏幕截图 2024-07-10 192526.png ]


另外附上一些我自己总结的一些gpu型号,如有不准确请见谅
pg509 a100 oam sxm5
pg503 v100 sxm2
pg506 a100(es版仅8gb) sxm4
pg193 l4 pcie
p1004 a30x(搭载npu) pcie
pg133 a10cg(定制版大功率a10) pcie
pg199 a100(无nvlink自动驾驶版) sxm2
pg189 tu104 (自动驾驶版t4) sxm2
ga100-884aaa-a1 a100 40gb sxm4
ga100-895gg1-a1 a100 32gb pcie
其中,pg199算是比较值得购买的,如果价格低于8000而且你有ai需求那么可以选择,但是它不支持nvlink,多卡互联对cpu要求高,因此请自行判断。
而pg506 pg189不推荐,首先是他俩的显存一个8g一个6g,虽然都是满功耗的ga100和tu104,但是显存容量太小并且pg506是工程样品,win下驱动会掉,所以不建议。而pg189就是一张tesla t4的自动驾驶版,买它还不如买个2080Ti 22g好用。
其它的型号我并没有使用过,而且数量稀少,价格可能比正经a100还要贵,除非你喜欢收集这些稀奇古怪的硬件,不然还是别买。
接下来就是等候硅脂和机箱送到了

另外如果你需要PG199的驱动可以问我要

欢迎光临IT技术交流论坛:http://bbs.itzmx.com/
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册论坛 新浪微博账号登陆用百度帐号登录

本版积分规则

手机版|Archiver|Mail me|网站地图|IT技术交流论坛 ( 闽ICP备13013206号-7 )

GMT+8, 2024/12/21 23:56 , Processed in 0.349297 second(s), 24 queries , MemCache On.

Powered by itzmx! X3.4

© 2011- sakura

快速回复 返回顶部 返回列表