Tesla 等计算卡的折腾以及各种需求下的安装配置攻略
用途总结
曾经的消费级电脑主板有 SLI 和交火技术,使得 PCIE3.0x8 的双 PCIEx16 插槽主板流行过一段时间,尽管这种 PCIE 插槽布置受到了 M.2 插槽和 USB4 的侵蚀,但仍然有少数中高端消费级电脑主板支持这种插槽布置。
尽管连接多显卡的功能已经是过去式了,但多显卡系统仍有可取之处:
- 给专业软件、生产力软件添加额外的渲染管线
- 包括(能调用显卡渲染的)视频剪辑软件、图像剪辑软件,好处是能够额外增加解码器数量,视频轨道更多的情况下也能流畅预览
- 给“大模型”增加算力和显存容量
- 分为语言模型和图片生成模型,前者注重显存大小;后者对算力和架构新旧程度有要求
- 由于大显存显卡太或者架构太老,用多个中小显存显卡合体起来对付一下
- 使用如 Lossless Scaling 的软件来将游戏超分辨率的负载转给另一张显卡完成
踩坑排雷
说实话,这里的坑有点多...
1.消费级 PCIE 通道
- 数量有限,且往往不可拆分(通道拆分本身是由专用的芯片实现的)
- 南桥/PCH 扩展出的接口严格来说不是真的拆分,总体带宽仍受上游限制
2.英特尔 CPU 兼容性
- 一些老的显卡在较新的英特尔 CPU 上会出现重启掉驱动问题,目前没有好的解决办法
3.EPYC(霄龙)平台性能
二手市场有大量性价比高的旧 AMD EPYC CPU 流通,128 条 PCIEx3~x4 的通道绝对够用
- 主板贵(现在内存和硬盘也贵)
- CPU 散热器选项少,因此比消费级性价比要低很多
- EPYC CPU 不只是有功耗墙,还有“频率墙”,这导致大多数 EPYC CPU 的实际性能可能会远低于心理预期
- 只有稀少且昂贵的 ES 工程样品支持通过第三方软件解锁频率限制
4.电源问题
不但要确保电源的瓦数够用,还可能要为模组电源额外购买 PCIE 电源线,否则不够用
- 尽管较新的电脑电源没有供电轨道的概念(?),但仍然不推荐将一根 PCIE 电源接口拆为两根用的做法,这样做可能会烧毁中低端电源,或/和使高端电源快速老化
- 切勿混用电源模组线,很多时候同一品牌,同型号不同版本的电源线之间也不通用
- 这样做相当于在电脑通电的情况下泼水进去
- 独立购买电源线应默认货不对版
- 务必将电源取出,用万用表针对这根线测量电压和针脚位置的对应(PCIE 电源线有严格的位置标准,可以用 AI 工具辅助完成这一步)
5.机箱空间
- 建议至少不小于 ATX 中塔机箱,推荐支持 E-ATX 大小(SSI-EEB 长度)的机箱
- 极少数 mATX 机箱和主板,搭配如双槽厚度主显卡的情况允许额外插一块单槽厚度的 PCIE 卡,如 RTX A4000(会主档主显卡散热进风)
- 有的情况需要半高卡,如 RTX A2000,RTX 4060 半高,Tesla P4,Tesla T4 这些个显卡,
- 散热和供电限制严重,有的只用 PCIE 插槽供电(75W 封顶,但主板可能连这点都给不了),除非空间不足,否则不推荐
- M.2 SSD 散热器的高度要矮,否则会阻挡显卡
6.被动散热转主动

Nvidia Tesla/Grid 系列,AMD Instinct Mi 系列的计算卡(依赖服务器风道散热)
- 最好的方法是自己测量和建模,再用 3D 打印机做一个导风罩,连接自己电脑的机箱风扇
- 否则就是购买专用的连接件了
7.显存濒死
较老的大功率计算卡可能会出现显存老化之类的问题,不过它们自带的 ECC 校验功能可以帮助用户发现这一问题
- 大体上的操作是打开该显卡所用的工具,然后打开压力测试,检查错误计数是否增加实现
- 一旦增加,立即退货
- 英伟达显卡错误计数监控命令:
nvidia-smi dmon -s et -d 10 -o DT
8.SXM 转 PCIE 卡
尽管这里面不涉及协议转换,但这张 PCB 必须同时支持单卡 300W 的峰值功耗,以及高速信号传输两个需求
- 已知这些转接板已经迭代到了第 5 版,但仅限国内的部分平台
- 海外用户则没什么选择了
- 购买一整套装好的方案时,应检查是否有严重的做工问题
- 螺丝松紧不一:可能会导致散热接触不好,或者漏风
- 螺丝拧爆:拧下后从螺丝孔倒出大量铁/塑料屑,建议退货
- 散热片挤死:安装时用力捏过散热器,导致无法通风,可以用刀片重新掰直
普通消费级平台方案示例
直插方案
购买主板时留意是否有第二个长度为 PCIEx16 的插槽,只要这个插槽拥有 PCIEx4 或 x8 长度的针脚就可行
- 相比转接方案更昂贵,因为这种主板一般只存在于顶配高端型号
图:AMD B650 平台的双 x16 插槽主板之一
图:同样是有两个 PCIEx16 插槽,但第二个插槽只有 PCIEx2 针脚布线,以至于坑到作者的主板
转接方案
对应大多数较新的中低端主板,直接从 M.2 接口转接出一条 PCIE4.0x4,长 16 的槽
- 购买专用转接卡/转接线(贵),且安装有一定难度(额外走 4-pin 供电线路 + 很多电脑机箱没有 PCIE 竖装位)
- 需要确认 M.2 接口朝向,并购买对应朝向(引向竖装显卡槽位)的转接卡变体
- 最大程度减少主显卡散热器进风的阻挡
- 与直插方案不冲突(三显卡并行),但这样做成本最高
注:纯净英伟达显卡驱动安装
推荐用 NVCleanInstall 安装所有除修改版外的英伟达显卡驱动,以尽可能地减少没用的组件
驱动
Tesla 计算卡有 4 种驱动可选:
- “破解”了 Grid 驱动付费功能的 修改版 Grid 驱动
- 不支持与 GeForce 驱动共存,不能加载驱动的显卡会在设备管理器中显示错误代码 31
- 支持 WDDM/TCC 两种模式
- 英伟达官方的 桌面/Desktop驱动
- 支持与 GeForce 驱动共存
- 仅支持 TCC 模式
- 自行修改 Quadro/Studio/Grid 驱动(不兼容则可能会黑屏死机,卸载设备和驱动即可)
- 英伟达将同款核心通过驱动差异拆分为多种产品,因此理论上直接将兼容的 Studio 驱动里添加进 Tesla 卡的型号就有可能实现支持
- 在TechPowerUp网站里找到自己拥有的GeForce显卡型号,或直接从GPU-Z的Lookup按钮一键找到对应页面
- 找到并点进下方表格的核心编号:
- 打开页面中找到同核心的 Tesla/Quadro/GeForce 显卡
- 确保页面中的型号出现在了Grid驱动的
Display.Driver\nv_dispsig.inf,[strings]栏目里 - 在GeForce驱动里的
Display.Driver\nv_dispig.inf,[strings]栏目里找到对应GeForce显卡的行 - 将5(GeForce驱动的对应行)拷贝到4(Grid驱动的上述位置)里,另存同名文件到桌面
- 利用英伟达驱动先解压再安装的特性,直接运行Grid/Studio驱动并解压到桌面,然后用6替换掉
Display.Driver\nv_dispsig.inf,安装- 详细修改方法见 四季尘封之时 - Blog
- (新)雨糖科技修改版 GeForce 驱动
- 理论最佳方案
- 支持 WDDM/TCC 两种模式,在任务管理器和 GPU-Z 中看得到 GPU/显存占用,并且添加了 Vulkan API 支持
驱动模式
两种模式可以通过修改设置来切换
图形/游戏显卡模式
- 所有 GeForce、Radeon、Arc 显卡默认使用的模式
- 适配图形计算和画面输出功能(支持 DirectX、Vulkan 等图形 API),对图片和视频编辑渲染有帮助
- 图形输出会占用显存,一般为当前显卡显存大小要少 1GB
计算卡模式
- 一般来说仅计算卡使用此模式,只要 PCB 板没有显示接口就大概率是
- 缺少 DirectX、Vulkan 等图形 API,图片和视频编辑渲染也受限
- Nvidia Tesla 桌面/Desktop 驱动仅支持这一种模式,尽管计算卡本身不是这样(但也缩减了相关功能,如 ROPs 的规模)
命名规律
| 显卡品牌 | 图形模式名 | 计算模式名 |
|---|---|---|
| 英伟达 | WDDM模式(默认) | TCC模式 (Tesla Compute Cluster) |
| AMD | Graphics (默认) | Compute (计算) |
| 英特尔 | 默认集成/显示模式 | Compute Engine / CCS模式 |
英伟达显卡/计算卡驱动选择
英伟达显卡中,最高的大版本号可能是 582,在 591.xx 或更高的版本可能会出现驱动未收录设备,导致驱动安装失败的情况
如果是给英伟达图形/游戏显卡安装 591 或更高版本驱动,英伟达计算卡安装 582 或更低版本,则可能会出现驱动安装过程导致另一张卡掉驱动的情况
计算卡转图形/游戏显卡
通过安装 雨糖科技修改版 GeForce 驱动 或不可用时选择 修改版 Grid 驱动 实现
- 如果安装前者,则请根据其教程来操作,不要跳过任何步骤
- 由于前者同时支持几乎所有现有的英伟达显卡,因此理论上只需要安装一次驱动即可
- 后者适用于只有英伟达计算卡,没有英伟达图形/游戏显卡(不包括其它品牌游戏显卡)的配置
计算卡搭配图形/游戏显卡
- 纯官方驱动——英伟达显卡+英伟达计算卡:
- 在不修改驱动的情况下,先安装计算卡的驱动,再安装图形/游戏显卡的驱动实现
- 下载并安装 Tesla 计算卡驱动(需要重启)
- 下载并安装大版本(整数版本号)与 Tesla 计算卡驱动一致的 GeForce 显卡驱动
- 重启
- 去设备管理器(此电脑右键 → 管理 → 设备管理器)检查显示适配器中,两个显卡同时出现
- CMD 输入
nvidia-smi,看到两张显卡同时存在即可
- 英伟达显卡+英伟达计算卡转图形/游戏显卡:
- 通过安装 雨糖科技修改版 GeForce 驱动 实现,或安装 Grid 驱动并设置为 WDDM 模式,使计算卡成为主显卡实现
英伟达设置驱动模式
CMD 输入以下命令以查看 Tesla 计算卡的序列编号(这是在打开程序,与操作系统类型无关)
nvidia-smi -LCMD 输入(0=WDDM, 1=TCC)以根据上述设置驱动模式
nvidia-smi -i <Tesla 计算卡编号> -dm <0/1>风扇曲线
计算卡本身没有风扇,也自然没有风扇接口;尽管有的型号预留了接口,但大多情况下风扇会使用 3 或 4-pin PWM 接口,因此直接将该插在机箱上,通过软件读取计算卡核心温度并控制风扇转速是最准确的方法
- 推荐使用 Fan Control 控制风扇,从而避免在 BIOS 里的设置因更新 BIOS 而被清除
- 有些改装的显卡风扇带有温控探头(如 SXM2 显卡)则用不到(但温控探头本身距芯片热源远,还会吹到风扇的冷风而误判降温,因此相对不太可靠)
例:Tesla P4 与 T4 的风冷改装
- BFB0512HHA 风扇为3针,因此不要在1分2,1分N线中插入4针的其它风扇,否则转速无法被控制
- 以下为 Windows 平台下最优方案 Fan Control 免费开源软件的用法:
- 下载Fan Control,从左栏 Settings → Start at User Log On 设置为开机自动运行
- 回到主页,点右下角⊕ → Add "Graph" Fan Curve(或 Linear)添加一个温度-转速曲线图:
- 差不多这样,由于 BFB0512HHA 比较安静,所以至少 51% 左右的转速就可以了

- 在主页上方Controls栏目找到对应 BFB0512HHA 的风扇接口,然后命名为Tesla <型号名>以方便查阅
- 每个接口右上角的"⋮"中选 Manual Control 手动,然后调到 100%,直到正确的风扇转速被调到 100% 即可定位
- 在对应接口的 Curve 栏目上连接刚刚设置的曲线
- 右上角"⋮"中选保存
- 使用软件控制风扇曲线的好处是不用每次更新 BIOS 都重新设置风扇曲线了,而且解决了部分厂家的风扇曲线设置菜单及其难用,或者不存在的问题
到此就算完成了所有的安装步骤了,打开 GPU-Z 的传感器菜单,进 AE/PR 看看功耗变化即可
那么就这样
打赏信息


——Buy me a coffee 链接
——PayPal 链接
——新纪录!这玩意现在年收入 20 人民币
其它参考来源:
- www.jianshu.com/p/68bf40eb9b64
- www.bilibili.com/read/cv19201270/
- linustechtips.com/topic/1496913-can-i-enable-wddm-on-a-tesla-p40/

