硬件-服务器-主板总体设计
1. 引言
本文是《硬件-服务器-一种8U机架式液冷GPU服务器的硬件架构总览:从机箱布局到核心单板》的深度延续。前文展示了服务器的整体布局与核心单板分布,本文将深入剖析其基座——服务器主板——的硬件总体设计。
2. 服务器主板硬件架构:五层系统模型
服务器主板的设计是一个复杂的系统工程,其架构可抽象为五个层次,从物理基础到功能承载,层层递进与支撑。
| 层级 | 名称 | 包含模块和功能说明 |
| 第五层 | 应用与负载 | CPU核心(计算) 内存阵列(缓存) PCIe设备森林(扩展) 存储池(持久化) |
| 第四层 | 互连与路由 | UPI/IF总线(CPU间通信) PCIe交换拓扑(I/O资源动态分配) |
| 第三层 | 资源管理 | BMC带外管理(监控/控制) RAS引擎(自愈) 电源/热策略(能效/可靠) 固件(初始化) |
| 第二层 | 能量与信号 | 复杂电源树(分配/转换) 时序控制(有序启停) SI/PI网络(完整性) 时钟树(同步) |
| 第一层 | 物理承载 | 多层PCB(布线/互连) 高密度连接器(信号/功率) 散热底座(热传导) 结构件(支撑) |
- 物理承载层:这是设计的物理基础,包括:14层以上高密度PCB,负责所有电气互联与提供电磁参考平面;高可靠连接器(如CPU插座、内存插槽、MCIO接口等);以及集成式散热底座和结构加强件,以应对重型散热器与板卡的机械应力。
- 能量与信号基础层:此层构建主板运行的电气基础。复杂电源树负责将输入电能转换并分配给数十个电压域;精密时序电路控制所有电源轨与复位信号的上电/下电顺序;信号完整性网络确保高速信号传输质量;全局时钟树为所有同步电路提供低抖动的时钟参考。
- 资源管理与协调层:此层实现硬件的监控、控制与可靠性保障。核心组件包括:基板管理控制器(BMC),提供带外管理;平台控制器中枢(PCH),处理平台管理与低速I/O;复杂可编程逻辑器件(CPLD),实现硬件时序与逻辑控制;RAS特性电路,实现错误检测、纠正与容错;电源与热管理策略引擎,动态优化能效与可靠性;以及固件存储与执行环境,完成硬件初始化。
- 互连与路由层:此层是数据流动的高速公路网络。主要包括:CPU间高速互连(如UPI、Infinity Fabric),实现多处理器间缓存一致性通信;以及PCIe交换拓扑,对CPU提供的PCIe通道进行扩展、拆分与路由,为I/O设备提供连接。
- 应用负载承载层:此层直接服务于计算与存储任务,是前述所有基础设施的最终服务对象。包含:CPU计算核心、大容量内存阵列、PCIe扩展设备集合(如GPU、加速卡)以及本地存储接口。

(上图为主板整体框图,细节需完善,仅作参考)
3. 核心电路设计解析
3.1 电源架构与时序设计
服务器主板的电源设计首要解决从千瓦级输入到各路低压大电流输出的高效、可靠转换问题,并遵循严格的上电时序以避免闩锁风险。
核心电源上电时序链:

注:此为基础通用时序,具体平台有差异。
设计关键点:
- 多相并联VRM:为满足CPU超过100A的峰值电流需求,采用多相并联设计,并结合交错相位控制以降低输出纹波。
- 负载点架构:广泛采用PoL方案,将12V中间总线铺至负载附近再进行DC-DC转换,显著减少大电流、低电压在PCB上的传输损耗。
- 全链路监控与保护:每一路关键电源均集成电压、电流、温度监控及过压、过流、欠压保护电路,状态通过I2C/SMBus上报至管理控制器。

(上图为主板电源树,仅作参考)
3.2 平台控制与逻辑管理:PCH与CPLD详解
PCH(Platform Controller Hub) 在现代服务器主板上通常作为独立芯片,主要负责:
- 提供丰富的低速I/O接口:如SATA、USB、SPI、UART等
- 管理平台电源状态转换(如S0、S3、S5)
- 处理系统中断与DMA控制
- 集成可信平台模块等安全功能
- 作为BMC与CPU之间的通信桥梁之一
CPLD(复杂可编程逻辑器件) 在服务器主板中扮演“硬件状态机”的关键角色,其核心功能包括:
- 上电时序控制:执行精确到毫秒级的电源使能、复位信号释放序列
- 硬件错误检测与响应:监控关键信号(如PG、THERMTRIP#),触发紧急下电
- 接口逻辑转换与桥接:在不同电压域或协议间转换信号
- 热插拔控制:管理PCIe插槽等设备的热插入与移除逻辑
- 冗余控制:管理双路电源输入切换、风扇冗余切换等逻辑
在本设计中,CPLD与分立式BMC通过GenZ接口协同工作:CPLD负责底层的、实时性要求高的硬件状态控制与信号调理,而BMC负责更高层的策略管理、数据记录与远程通信。
3.3 高速互连与信号完整性
主板承载着数据中心内部最高速的信号,其设计重点在于管理三大互连体系。
- CPU间互连:多路CPU通过多条高速串行链路(如Intel UPI)连接,构成网状或环状拓扑。设计核心是严格的通道间延迟匹配和针对PCB损耗的发送端预加重与接收端均衡设置。
- 内存子系统:支持每个CPU 8个以上DDR通道,采用菊花链或T型分支拓扑连接多个DIMM。设计挑战在于保证分支末端DIMM的信号眼图质量,需精确控制T点分支长度差并进行阻抗连续性优化。
- PCIe扩展架构:其实现模式分为集成与分立两种。
- 集成式:PCIe Switch芯片直接集成在主板上,连接至板载插槽。优点延迟极低,集成度高;缺点扩展灵活性受限,Switch发热影响主板热设计。
- 分立式(本文采用):主板不集成Switch芯片,而是通过高速线缆接口将CPU的PCIe根端口信号引出。在本设计中,具体通过2个x8 MCIO接口,以线缆连接至独立的 PCIe Switch板卡。
- 分立式设计优势:
- 扩展灵活性高:Switch板可独立设计,支持更复杂的多级交换拓扑,轻松适配8+ GPU等高端配置。
- 散热解耦:将高功耗Switch芯片的热源从主板移除,简化主板散热,更利于全液冷系统设计。
- 维护与升级便捷:Switch板卡可独立更换升级,无需动及主板。
- 信号质量可控:对于机箱内长距离传输,优质线缆比超长PCB走线更易保证PCIe Gen4/5的信号完整性。
3.4 管理子系统架构
管理子系统是服务器硬件可靠性与可维护性的基石,其BMC的部署方式也分为集成与分立两种。
- 集成式:BMC作为一颗独立SoC焊接在主板上,通过板内I2C等信号接口直接管理所有传感器与器件。
- 分立式(本文采用):主板不直接放置BMC芯片,而是通过一个专用高速连接器(GenZ-168pin)将所有管理信号(如I2C/SMBus、GPIO、LPC/eSPI、VGA、USB边带信号等)汇聚并连接到一块独立的 BMC管理板上。PCH/CPLD在本架构中至关重要,作为主板上的"管理代理",本地执行实时控制,并通过GenZ接口与远程BMC通信。
- 分立式设计优势:
- 资源集中与复用:单块功能强大的BMC板可管理多个计算节点,在多节点服务器中降低总体成本与复杂度。
- 提升主板计算密度:为主板节省出宝贵面积,用于部署更多内存或电源组件。
- 增强系统可靠性:实现管理功能与计算功能的物理隔离,BMC板故障不影响核心计算区域,且支持独立更换。
- 支持高级管理功能:独立的BMC板可配备更强处理器与更大存储,以承载虚拟KVM、大规模日志存储与高级安全协议等复杂任务。
4. 单板电源设计说明
4.1 单板供电原理框图
单板完整的电源分配网络拓扑图,展示了从输入电源到各功能模块的转换与分配路径,详见文档的电源架构章节
4.2 单板电源各功能模块详细设计
- 硬盘背板供电:主板通过高电流连接器(如选用22PIN连接器)为硬盘背板提供+12V、+5V等电源。设计时需计算最大电流需求,并根据连接器单pin载流能力确定引脚数量,确保足够的余量。
- 上电时序控制:单板上电需严格遵守CPU等核心芯片要求的时序。通常顺序为:待机电源 → 管理芯片 → 内存VPP/VDDQ → 芯片组 → CPU核心VCC。此时序由CPLD或专用电源时序芯片,结合各路电源的Power Good信号进行控制。具体时序图依据CPU平台设计指南制定。
5. 单板信号完整性设计说明
5.1 关键器件及相关信息
| 器件名称 | 器件编码 | 厂家 | 型号 | 封装 | 是否有IBIS/SPICE模型 | 接口类型、速率 | 连接方式 |
| CPU | 如:DDR5、PCIe 5.0、I2C | 如:板对板、MCIO连接器、板内信号 | |||||
| PCIe Switch | 如:PCIe 5.0 | ||||||
| …… |
- CPU:作为最高速信号的源头和终点,其互连(如UPI)、内存控制器(DDR)和PCIe控制器的SI性能是设计核心。
- PCIe Switch:用于扩展PCIe通道,其信号质量直接影响所有下游扩展设备的稳定性。
5.2 关键信号时序要求
DDR4/5内存接口、PCIe总线等高速接口有严格的时序要求。具体时序参数需遵循CPU等器件手册规范,并在PCB设计中通过控制走线等长来满足。时序图纸详见相关设计文档。
5.3 信号质量保障措施
针对信号串扰、反射、过冲/下冲等问题,采取以下措施:
- 叠层与阻抗控制:使用高性能PCB材料,严格计算并控制单端50Ω、差分100Ω(或根据规范调整)的特征阻抗。
- 布线规则:严格遵守3W原则以减少串扰;高速信号尽量避免换层,如需换层则在过孔附近增加回流地过孔;关键时钟信号进行包地处理。
- 端接匹配:在信号源端或末端使用适当的端接电阻(如源端串联电阻),以消除反射。
- 电源完整性:为高速芯片提供低阻抗、低噪声的电源网络,在电源引脚附近放置充足的多容值去耦电容组合。
5.4 关键接口仿真分析
- 低速外设接口:如SMBus、GPIO等,速率较低且多为异步,主要对负载较重的控制信号进行简单的驱动能力与单调性仿真即可。
- DDR接口:必须进行完整的拓扑仿真与时序分析。严格遵循CPU供应商的布线指南(如线长、间距、分组),对T型分支或Fly-by拓扑进行优化,确保信号眼图满足接收端规格。
- PCIe总线:针对PCIe 4.0/5.0 (16/32 GT/s) 高速信号,需进行全通道仿真,包括发送端、PCB走线、连接器、接收端的完整链路。评估损耗、回损、串扰,并据此确定是否需要及如何配置Retimer/Redriver芯片,或调整发送端的预加重、接收端的均衡设置。
6. 单板热设计说明
单板的热设计基于详细的热仿真与实物测试验证。具体散热方案、器件布局、散热器选型及风扇调速策略详见独立的《热仿真分析报告》。
7 单板器件应用可靠性设计说明
7.1 器件降额与选型
所有器件均遵循严格的降额设计规范,以确保在额定工况下仍有充足的可靠性余量。
- 电容:铝电解电容工作电压≤80%额定电压;陶瓷电容≤60%;薄膜电容≤60%(若交流应用则为50%);钽电容≤50%(注意浪涌电流限制)。
- 电阻:功率≤60%额定功率,电压≤70%额定电压。
- 电感/磁珠:工作电流≤80%额定电流,电感关注温升(表贴≤30°C,插件≤40°C)。
- 接插件:电流与电压均≤70%额定值;尽量少用表贴拨码开关和插座;关键电源或信号采用多针并联。
- 晶体/晶振:布局远离热源和风扇(环境气流变化较大);电源加强滤波(推荐0.01uF的独石电容,对抖动要求严格的信号还需加10uF的钽电容);为减少输出的抖动和反射,晶振的输出端串联33Ω电阻(可根据实际信号质量调整),注意负载匹配。
- 电源模块:
- 负载(单路/多路):一般要求电源模块的负载最小不能低于模块功率的10%,最大不能超过模块额定功率的80%;对有最小负载要求的电源模块,可通过加假负载的方式满足。
- 多路输出:多路输出需保证输出的平衡,并且应注意每一路负载是否有最小负载要求。
- 壳温:常温时壳温不能超过60度;高温测试时,铝基板产品的壳温不能超过90度(非铝基板产品的壳温不能超过80度。
- 保护:电源的输入端需加保险丝、防尖峰浪涌电压保护、缓启动电路、输入滤波电路等,多模块应用时需有均流电路。
- 电源芯片:
- 选型:在电流较大且对电源转换效率要求较高的地方使用开关芯片,在对电源质量纹波要求较高的地方选用线性器件。
- 散热:保证电源芯片的表面温度不能超过90度,否则需加散热片或使用风扇散热。
- 降额:电源芯片的输出电流应小于额定电流的80%。
- 通用芯片(接口芯片):
- 多余管脚:器件所有NC管脚按照器件手册要求处理,然后考虑节省功耗。
- 总线芯片:总线驱动时,单向传输时不要选用双向传输芯片;对驱动能力和速度要求比较高的,应使用ABT或LVT系列芯片。
- 匹配:信号线长度达到传输线效应的时候,必须对信号线做匹配处理,常用的匹配有源端匹配、终端匹配、AC并联匹配和戴维南匹配等。
7.2 工程可靠性分析
- 机械应力:表贴晶振、大尺寸陶瓷电容(如1206)等布局远离板边、定位孔、螺钉孔。散热器安装压力均匀。
- 可加工性:关键器件ESD等级≥1KV,满足产线加工要求。
- 环境应力:工作温度(5-40℃)和湿度(8-95%RH)在商业级(0-70℃)/工业级器件承受范围内。选用105℃铝电容及-40~85℃晶振(晶振属温度敏感器件,需远离高热器件、气流变化较大的环境)。
- 寿命与可维护性:关注机械摩擦(如 连接器插拔次数限制)、材料衰竭(如 晶振老化率±5ppm/年、电池寿命)。
- 器件质量:优先选用高可靠性等级器件,严格控制低等级器件使用比例(如3%以内)。
7.3 上/下电过程分析
- 浪涌防护:对不支持热插拔的连接器串联小阻值电阻进行保护设计。单板输入电源设计缓启动电路,抑制浪涌电流。
- 钽电容应用:在电源输入端等可能有大浪涌电流的电路,避免或严格降额使用钽电容。钽电容运用场合的电压降额均要求达到50%以上,但在有感性负载和低阻抗电路中要求降额70%以上使用以保证其可靠性。
7.4 可靠性薄弱点控制
针对晶振、大容量陶瓷电容、钽电容等公认的可靠性薄弱环节,通过优选供应商(如NDK晶振)、严格降额、优化PCB布局和热设计等措施进行重点控制。
8 EMC、ESD、防护及安规设计说明
8.1 PCB层叠与电源地规划
- 叠层:确保电源和信号层都邻近完整地平面,高速走线层的两个相邻层都是完整地平面。
- 电源分割:复杂电源平面分割时,保证各电源平面通流能力和最大利用率,并避免高速信号线跨分割。Core电压的电流较大,电源部分必须充分靠近CPU。
- 接地:整板采用统一地(GND),通过多个金属化螺钉与金属结构件(如机箱)良好搭接,实现低阻抗、多点接地。高速电路和接口部分要至少有一个螺钉与金属结构件相连。
8.2 关键EMC设计措施
8.2.1 结构与屏蔽设计
- 机箱搭接:在机箱接合处使用连续的导电簧片,确保良好电接触,形成完整屏蔽体。
- 散热与屏蔽协同:前面板通风孔尺寸需基于热仿真确定,在满足风量的前提下兼顾屏蔽效能。
- 芯片散热器接地:芯片的金属散热片应优先采用接地设计,以辅助散热并屏蔽高频噪声。
8.2.2 时钟电路设计
- 电源滤波:
- 时钟及其驱动器的电源必须采用 π型滤波器(磁珠+10μF电容+0.01μF电容)。
- 时钟频率超过100MHz时,建议在电源引脚就近增加1~2个1nF电容;125MHz时钟建议额外增加560pF电容。优选NPO材质电容。
- 布局与布线:
- 就近原则:晶振、时钟驱动器必须尽量靠近其服务的IC,距离不超过750mils(约19mm)。
- 走线规则:所有时钟线必须走内层,并参考完整的地平面,严禁跨分割。严格遵循 ≥3W线间距规则,并尽可能缩短走线长度。
- 换层处理:尽量避免换层。如必须换层,需保证参考平面连续性:从地平面GND1换到GND2时,在过孔旁加2个接地过孔;从地换到电源平面时,靠近换层过孔放置1个小去耦电容。
- 隔离:时钟线需远离板边开槽区域,并与其他信号线保持 ≥10W间距。
- 匹配与端接:
- 晶振及时钟驱动器的输出端必须进行匹配,采用33Ω电阻或RC滤波器,且匹配器件必须靠近驱动源端放置(距离≤500mils,约12.7mm),阻值可根据SI测试调整。
- 连接到底板(如通过连接器)的125MHz时钟线不宜过长,在经过连接器时用地针保证信号回流,避免沿板边或连接器边缘走线。
- 未用引脚与外壳:
- 时钟驱动器未使用的输出引脚应通过RC网络接地或悬空,最佳实践是通过I2C等总线软件禁用。
- 晶振/晶体金属外壳必须接地。
8.2.3 高速/差分信号设计
- PCIe等总线:
- 驱动器电源滤波同样采用磁珠+10μF+0.01μF+1nF组合,输出端一般采用源端匹配。
- PCI总线信号应走内层,参考完整地平面,严禁跨分割。
- 差分信号:
- 差分对应保持线间距恒定,以确保阻抗连续,抑制共模信号。
- 所有接口差分对(如以太网、SERDES)必须保证阻抗精确且连续,优先走内层,避免换层。
- GHz级高速信号:
- 对于1.25GbE、3.125G SERDES等GHz以上信号,需采用 法拉第屏蔽 :尽可能走短线、不换层、走在内层并参考完整地平面,同时进行包地处理,并与其他走线保持 ≥5W间距。
8.2.4 电源、接地与通用布线
- 电源设计:
- 电源平面应尽量与地平面相邻,并减小层间距,主电源层最好有地层相邻。
- 为电源电路划分独立布局区域,避免与高速信号线交叉。
- 电源滤波电容、芯片去耦电容的引线应加粗,小容量电容必须最靠近芯片引脚放置。
- 高速信号走线应远离电源模块区域。
- 接地设计:
- 在数字电路集中区域,增加金属化螺钉孔数量,实现多点低阻抗接地。
- 使能、片选、复位等敏感控制信号应紧邻地平面,不得跨越电源或地平面的分割区。
- 布线优先级与策略:
- 布线顺序:时钟线 → 芯片电源滤波线 → 复位等关键控制线 → 高频总线 → 低频总线 → 其他信号。
- 区域隔离:时钟线及接口数据线需与其他信号线保持充分距离(≥10W)。
8.3 防护设计
- 接口滤波与防护:网口、USB等对外接口按设计规范增加共模扼流圈、TVS管等滤波防护器件。
8.4 安规设计
为确保产品符合全球主要市场的安全法规,保护使用者并降低电气风险,服务器主板及整机设计必须遵循以下安规核心要求:
8.4.1 产品定位与基础安全要求
本产品为机架式服务器,采用可拆卸电源线供电,设计为连续工作模式。其基础安全架构为:
- 防触电等级:I类设备,依赖基本的绝缘系统及保护性接地实现防触电。
- 工作环境:室内使用,环境温度0-35°C,海拔高度5000米以下。
- 过电压与污染等级:过电压等级为II级,针对市电环境;污染等级为II级,适用于一般无凝露的室内环境。
- 关键电气安全指标:
- 抗电强度:初级电路对保护地需能承受 3000VAC 的耐压测试。
- 接地连续性:保护接地通路必须可靠,接地电阻需满足 < 2.5V @ 40A测试电流 的要求。
- 漏电流:对地泄漏电流需 < 3.5mA。
8.4.2 合规认证目标
产品设计需满足并获取目标市场所要求的安规认证:
- 基础安全标准:符合 IEC 60950-1 及 UL 62368-1(音视频与信息设备安全标准)。
- 中国市场(强制):必须获得 CCC(中国强制认证),并获取中国环境标志(I型)与CQC节能认证。
- 其他主要市场:
- 欧盟:需满足CE标志下的低电压指令(LVD)与电磁兼容指令(EMC)。
- 德国:需满足 TUV-GS 认证。
- 北美:需满足 cUL / UL 认证。
- 中国台湾:需满足 BSMI 强制认证。
8.4.3 核心设计规范
- 防触电与能量隔离:
- 用户可触及的端口(如USB、VGA、网口)必须为安全特低电压(SELV) 电路,并满足受限电源(LPS)要求。
- 必须使用已通过 CCC/UL/TUV 等目标市场认证的外部电源模块(PSU),确保其一次侧输出为安全的SELV电压。
- 结构安全(外壳):
- 外壳开孔需防止手指或外来物触及内部危险带电件。顶部和侧面的开孔,在任何方向上的尺寸应不大于5mm,或宽度不超过1mm(长度不限)。
- 端口与组件安全:
- 数据端口限流:USB、VGA等端口必须设计限流保护电路(如保护IC或PTC),且该限流器件本身需具备UL/TUV/CB等认证。
- 电池安全:
- 纽扣电池需具备UL认证。
- 可充电电池必须符合 IEC 62133 标准
- 需具备防止反向充电与过充保护功能。
- 光驱:须具备Class 1激光安全等级认可与CB认证证书。
- 风扇:驱动电路需设计过载保护(如保险丝)。
- 硬盘:作为关键部件,应选用具备TUV/UL认证的产品。
- 材料与工艺安全:
- PCB基材:必须选用阻燃等级达到 UL 94 V-0 的板材。
- 接地可靠性:整机设计必须保证保护接地路径的电气连续性,满足相关标准要求。
9. 单板可靠性设计
9.1 可靠性指标要求
| 大类 | 项目 | 指标 |
| 温度 | 工作温度 | 5 ~ 40℃ |
| 非工作温度(运输与存储) | -40 ~ 70℃ | |
| 工作温度变化率 | 20℃/h | |
| 非工作温度变化率 | 30℃/h | |
| 满足降额时设备入风口最高温度 | 40℃ | |
| 环境试验-低温贮存 | -40℃,24h | |
| 环境试验-高温贮存 | 70℃,24h | |
| 环境试验-低温工作 | 0℃,16h | |
| 环境试验-高温工作 | 45℃,16h | |
| HALT试验-低温步进极限 | -40℃ | |
| HALT试验-高温步进极限 | 90℃ | |
| 湿度 | 工作湿度 | 8 ~ 90% RH,无冷凝 |
| 非工作湿度 | 5 ~ 95% RH,无冷凝 | |
| 环境试验-交变湿热 | 25 ↔ 45℃,95% RH | |
| 低气压 | 工作海拔 | -60~3000m(海拔>900m时,每升高100m,最高工作温度下调0.33°C) |
| 非工作海拔 | -60 ~ 5000m | |
| 环境试验-低气压(可选) | 54kPa (对应海拔5000m),25°C/0°C/40°C各16h,压变率10kPa/min | |
| 寿命 | 风扇&电解电容寿命 | 7年@25℃ |
| 振动 | 环境试验-工作振动 | 随机振动,10-300Hz,0.3 Grms |
| 环境试验-工作冲击 | 半正弦波,8G峰值,10ms脉宽 | |
| HALT试验-振动步进极限 | 30 Grms | |
| 噪声 | 工作噪声 (ISO 7779) | 环境温度<27℃:LpA ≤ 43dB(A); 环境温度<40℃:LpA ≤ 48dB(A) |
| 可靠性预计 | 标准 | Telcordia SR-332 Issue 4, Method III(C) |
| 平均故障间隔时间 | MTBF ≥ 7年 (基于25°C环境) | |
| 平均修复时间 | MTTR ≤ 0.5小时 | |
| 系统固有可用度 | ≥ 99.999% |
以上环境等级主要参考 EN 300019 标准中的 T3.2 等级(部分温控的场所),确保主板在典型数据中心环境下具备卓越的可靠性。
9.2 满足市场应用的寿命要求
| 要求 | 指标 | 措施 |
| 系统电解电容寿命 | 满足市场宣称寿命(如7年@25°C) | 1. 采用高分子聚合物固态电容。 2. 在纹波电流较大的二次电源部分增加陶瓷电容,有效分流高频纹波电流,降低电解电容的应力。 3. 进行纹波电流与热仿真,确保电容工作在降额范围内。 |
| 系统风扇寿命(L10) | 满足市场宣称寿命要求 | 1. 系统热设计在满足器件降额的基础上,额外增加约10°C的设计裕量。 2. 优化风道,降低系统风阻,使风扇在相同散热需求下能以更低转速运行,延长其机械寿命。 3. 采用具备转速反馈和故障预警的智能风扇。 |
| 电源模块(PSU)寿命 | 电解电容与风扇寿命满足要求 | 1. 在电源模块技术规格书中明确其电解电容与风扇的寿命指标。 2. 要求供应商提供相关寿命测试报告及可靠性数据。 3. 将PSU作为关键可更换单元进行寿命监控。 |
| 非易失存储器寿命 | EEPROM擦写次数 > 5000次 | 1. 优化软件算法,减少对EEPROM等存储器的非必要擦写操作。 2. 采用磨损均衡技术(若支持),延长Flash使用寿命。 3. 设置合理的配置保存和日志记录策略。 |
| 液晶屏(LCD)寿命 | 满足市场宣称寿命要求 | 1. 默认启用节电模式,例如在无操作3分钟后自动关闭背光。 2. 允许用户调整背光超时时间或完全关闭显示。 |
| 可充电电池寿命 | 满足市场宣称寿命要求(如7年) | 1. 选用高品质可充电电池。 2. 设计完善的充电管理电路,防止过充、过放。 3. 软件上提供电池电压/电量检测及低电量告警功能。 |
9.3 故障检测和可测性需求设计
| 要求 | 措施 |
| 记录并查询设备启动异常信息 | 软件在启动过程中记录关键步骤状态及错误码。用户可通过 |
| 硬盘健康度实时监测 | 支持S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology) 技术。软件周期性读取SMART属性,在预测到故障或发生错误时主动告警并记录日志。可通过专用命令(如 sudo smartctl -a /dev/sdX)查看详细信息 |
| 关键存储介质读取检测 | 提供命令行工具,允许读取Flash、CF卡或硬盘的关键扇区(如引导扇区、文件系统根目录),以验证介质可读性 |
| 风扇调试功能 | 提供查询命令(如 display fan xxx),并允许工程师手动设置特定风扇的固定转速,用于散热验证或故障排查。该配置可保存。同时提供 |
| 过温保护调试功能 | 提供调试命令(如 undo thermal protect),可在特定场景下(如热测试)临时禁止硬件过温保护关机功能。该操作为高危操作,需高级权限,且配置可保存以供下次上电使用,同时提供 |
| 业务板调试接口 | 每块独立的业务单板(包括主板本身)在硬件原理图上均预留一个调试用网口(或UART串口),便于在系统无法正常启动时进行底层调试和故障定位 |
| 芯片满负荷热测试支持 | 对于CPU等功耗随负载变化的芯片,提供软件命令或测试模式,能够使芯片工作在接近满负荷状态,以便在研发或验证阶段进行极限热测试和功耗测量 |
9.4 监控和告警功能设计
| 要求 | 措施 |
| 硬件状态实时查询 | 提供命令行查询: 1. 所有电源模块在位状态、输出电压/电流、故障状态。 2. 所有风扇模块在位状态、转速、故障状态。 3. 各关键测温点温度及预设的告警阈值。 4. 板内主要电源轨电压值及状态。 5. 系统时钟状态。 |
| 环境变化实时告警与记录 | 当以下任何状态发生变化时,系统立即在控制台打印信息,触发相应指示灯(如告警灯)变化,并生成日志事件: • 电源模块插入/拔出、状态异常。 • 风扇插入/拔出、转速、状态异常。 • 任何测温点温度超过预设的警告或严重阈值。 • 任何电源轨电压超过容限范围。 • 时钟丢失。
系统后台任务每10分钟轮询并记录一次完整的硬件状态快照。 |
| 系统复位原因记录 | 硬件设计配合软件,能够区分并记录单板重启的原因,例如:正常上电、看门狗超时复位、硬件复位按钮触发、软件发起复位、异常掉电后上电等。可通过命令查询最后一次及历史重启原因。 |
| 硬盘故障与容量告警 | 1. 读写故障:硬盘发生读写错误时,立即产生高级别告警。 2. 容量预警:持续监控硬盘可用空间,当剩余容量低于安全阈值(例如100MB)时,提前产生告警,提示管理员备份数据。 |
| 精细化热保护策略 | 1. 分级告警:设置多级温度阈值(低温警告、高温警告、严重高温告警)。 2. 选择性关断:对于支持独立下电的模块(如光模块、扩展卡),当检测到其温度达到关断阈值时,仅对该模块下电,而非关闭整个单板,提高系统可用性。 3. 阈值管理:严重关断阈值(如 达到关键器件额定温度-3℃时传感器测量的温度)通常在硬件或固件中固定,不允许用户修改。警告和告警阈值允许用户在用户模式下通过命令行调整合理范围并保存。 |
| 告警防误报机制 | 1. 温度采样确认:当温度传感器读数首次超过告警阈值时,系统在短时间内自动连续读取两次(每次读取间隔如30秒),以确认非瞬时干扰,再触发告警。 2. 系统就绪判断:在系统未完全启动(如主板启动但业务板未启动)前,抑制温度告警;且设备风扇未全速运行的情况下时,抑制高温告警(低温告警除外)。 |
| 系统保护和记录 | 监控过程中出现的温度告警或其他异常引起的保护动作(如系统复位、强制下电),在执行保护动作之前,系统必须将触发此次保护动作的具体原因作为一条带时间戳的事件,记录到非易失性的系统事件日志中。此日志应能被查询和导出。 |
9.5 容错和故障隔
| 要求 | 措施 |
| 系统上下电时序控制 | 对于多框、多板卡的大型设备,由主控板通过CPLD或专用电源时序芯片,精确控制各功能框的上下电顺序与时序,避免同时上电引起的机房供电母线浪涌。上下电成功后,电源状态被锁定 |
| 独立供电与故障隔离 | 系统内各主要功能框(如计算框、存储框、交换框)采用独立的供电通道。每个通道配备独立的过流保护(如电子保险丝)。当某一框发生短路等严重故障时,其对应电源通道能快速切断,确保故障不扩散至其他功能框 |
| 存储容错设计 | 支持硬盘RAID(独立磁盘冗余阵列)配置。对于PC服务器,推荐使用硬件RAID卡;在特定场景下也可采用软件RAID。建议的容错RAID级别包括RAID 1(镜像)、RAID 10(镜像+条带)和RAID 5(分布式奇偶校验),以在性能和可靠性间取得平衡 |
| 硬件黑匣子功能 | 单板设计非易失存储器区域(如专用Flash区),用于记录系统故障发生前的关键硬件状态信息,如异常时的电压、温度、关键总线错误日志等。发生严重故障后,技术人员可通过专用命令(如 |
| 防误插与防反插设计 | 1. 连接器:电源接口、信号连接器采用非对称或键位设计。 2. PCB布局:单板与背板的连接器、导销位置采用防呆设计。 3. 线缆:电源线缆接头定义标准化并带有明确标识。 |
| 热插拔上电延时保护 | 支持热插拔的单板,在物理插入并上电后,硬件(如CPLD)和软件需设计一定的延时(如几百毫秒),待单板电源、复位信号、管理总线信号完全稳定后,再进行器件初始化、身份识别等操作,避免因状态不稳导致的识别错误或初始化失败 |
9.6 冗余/备份设计
| 要求 | 措施 |
| 电源模块冗余 | 支持N+1或N+N电源冗余。系统设计确保在任意一个电源模块故障时,剩余电源模块的总输出功率仍能满足设备最大负荷需求,并留有一定裕量。系统支持电源模块的热插拔 |
| 主备单元切换可靠性 | 主备控制单元(如主控板、管理板)的切换成功率要求大于99%。这依赖于稳健的心跳检测机制、状态同步协议以及可靠的切换控制电路设计 |
| 电源无间断切换 | 冗余电源模块之间应能实现无中断的负载切换,切换成功率目标为100%。这要求电源模块支持负载均流,且背板供电回路设计低阻抗 |
| 保护倒换时间 | 对于业务冗余单元(如主控、交换网板),从检测到主用单元故障到备用单元接管业务的时间应 ≤ 1ms。对于语音类业务,目标时间T ≤ 50ms;对于数据交换业务,目标时间T ≤ 1000ms(不含路由收敛时间) |
| 冗余备份单元需要设计带电插拔功能 | 所有单板都可以热插拔 |
| 冗余单元热维护 | 所有设计为冗余备份的单元(如风扇、电源、主控板)均支持热插拔功能。允许在不中断系统业务的情况下,对故障单元进行更换,或对备用单元进行软件升级 |
9.7 生产和返修的支持设计
| 要求 | 措施 |
| 生产筛选策略 | 1. 主板:采用高加速应力筛选,优先级为 HASA > 快速温变 > 动态老化 > 静态老化。 2. 接口板/扩展板:筛选策略同上,但可根据成熟度和成本考量,对部分低风险板卡采用“不筛选直接发货”策略。发货前不进行常温拷机。 |
| 筛选过程信息化 | 1. 硬件上为单板设计特定的“筛选模式”跳线和通过CPLD寄存器标识。 2. 软件启动时检测到该模式,则自动进入生产线测试程序,对外围器件(内存、接口、时钟等)进行自动化检测。100min 内完成测试,10min 内保存测试结果,每 2hrs 完成一次测试。 3. 测试结果(是否进行筛选测试/筛选方式/Pass/Fail及具体失败项)写入单板非易失存储器,并可通过特定命令行查询。此记录不会被常规格式化操作清除。 |
| HASA测试兼容性 | 对于具有Remote ON/OFF功能的服务器电源,在HASA测试中需能从测试箱外部控制其上电(必须使能后才能上电)。设计上需确保电源的使能信号可通过测试夹具引出并控制 |
| 单板生命周期数据记录 | 在非易失存储器中记录以下关键数据,供返修分析: 1. 累计运行数据:总上电时间、复位次数。 2. 环境历史:单板在各温度区间(如从-20°C到80°C,每10°C一档)的累计运行时间。 3. 电压压力历史:各主要电源轨在“正常”、“警告”、“严重”三个电压区间的累计运行时间。 4. 可通过特定命令查询上述信息 |
9.8 可维护性规格设计
| 要求 | 措施 |
| 系统启动时间 | 设备满配置下,从加电到业务完全就绪的时间: • 快速启动模式:≤ 120秒。 • 完全自检模式:≤ 180秒。 |
| 现场FRU更换时间 | 现场更换任何一个现场可更换单元的最长时间目标为 ≤ 5分钟。这通过优化结构设计(如免工具插拔)、连接器易插拔性以及清晰的标识来保证 |
| 存储容量规划 | Flash等存储介质容量需足够存储:至少2个完整的系统软件版本、多份配置文件、长时间的系统日志与告警记录。例如,选用512MB或更大容量的Flash芯片 |
| 软件在线升级 | 支持业务不中断的在线升级。对于单主控系统,升级过程中业务会有短暂中断,但需有明确提示;对于主备系统,应支持通过主备倒换实现业务零中断升级 |
| 固件升级保护 | 关键固件(如BIOS/BMC/CPLD)的存储区域具备备份机制。升级备份部分时需要用户确认 |
| 加载错误保护 | 软件加载时通过校验和、数字签名等方式验证镜像完整性。对于不匹配或损坏的软件镜像,拒绝加载并告警,自动回退至上一个已知良好的版本 |
| 电池维护提示 | 硬件设计电池电压检测电路。软件监测电池电压,当电压低至需更换或充电的阈值时,向用户发出明确告警提示 |
| 模块化热插拔 | 系统支持硬盘、风扇、电源模块、部分业务板卡的热插拔功能。所有热插拔设计均需符合相关电气和机械规范,确保操作安全且不影响系统运行。另外,热插拔可以缩短MTTR |
| 硬盘状态告警 | 任何一个硬盘发生故障(掉线、SMART失败)或即将故障时,系统均会生成高级别告警,并通过前面板指示灯、管理系统界面等多种方式提醒用户 |
10. 单板可维护性设计说明
| 要求 | 措施 |
| 离线诊断 | 支持通过JTAG接口对单板进行离线诊断测试,验证CPU、桥片等核心逻辑器件的功能 |
| 版本管理 | 硬件(PCB)版本号与逻辑(CPLD/FPGA)版本号可通过软件命令查询上报 |
| 在线升级 | 支持CPLD、电源管理芯片固件、BMC固件的在线升级,无需专用编程器 |
| 加载方式 | 支持多种加载方式,包括:通过网络或USB加载BOOTROM及系统软件;通过JTAG加载逻辑代码 |
| 精细化复位控制 | 通过CPLD内部的寄存器,可分别对CPU、内存通道、BMC等子系统进行独立复位,便于故障隔离和调试 |
| 增强可测试性 | 大量选用支持JTAG边界扫描功能的器件,以补偿复杂主板可能存在的在线测试覆盖率不足的问题 |
| 状态指示 | 通过CPLD控制的多个LED指示灯(如电源、故障、定位灯)以及UID(单元标识)灯,直观显示单板运行状态,辅助快速定位问题 |
11. 单板工艺设计
11.1 PCB基础工艺
- 板材:采用中Tg、低损耗的FR-4材料(如 IT968G)。
- 尺寸:xxx mm (深) × xxx mm (宽) × xxx mm (厚)。因尺寸大且有缺口,生产时使用工艺边或辅助块支撑。
- 线宽/线距:常规区域4mil/4mil;CPU、DIMM等高压密区域局部达到3.5mil/3.5mil。
- 最小孔径:8mil。
11.2 关键器件工艺性
- 大型BGA焊接:针对大型CPU BGA,评估并优化钢网开孔设计(如外圈焊盘扩大),以应对芯片和PCB热变形差异,降低角落焊点空焊风险。
- DIMM插槽:16个DIMM插槽全部采用SMT制程,提高生产一致性。
11.3 机械结构与装配
- 固定方案:主板通过螺钉与专用托盘锁附,该托盘再与机箱结构固定。此机械方案继承自上代成熟产品平台,技术风险可控,可靠性已得到验证。
11.4 环保合规性
- 法规符合:产品设计必须满足欧盟 RoHS(有害物质限制) 与 WEEE(废弃电气电子设备指令) 要求。
- WEEE:整机材料与能源的回收率需达到 75% 以上,并在产品上标识规定的“带叉垃圾桶”符号。
- RoHS:所有元器件选型的环保等级需达到 R3至R5(即满足最新有害物质限制要求)。单板组装全过程采用 无铅焊接工艺。
11.5 新物料应用与验证
- 导热界面材料:
- CPU散热器:评估采用新型高性能导热硅脂 TC-5888。在正式应用前,必须完成其长期可靠性测试与验证。
- VR(电压调节模组)散热器:推荐选用来料已预制导热垫或硅脂的散热器,以简化生产并保证界面质量。
11.6 自动化生产支持
为提升生产质量与效率,单板设计支持以下自动化及流程优化:
- 自动化接口:板载网口硬件设计需支持自动化测试设备的识别与接入。
- 高效生产流程:采用 “一个流”生产工装,该工装可在同一平台上连续完成单板的印刷、贴片、回流焊、插件、波峰焊等核心工序,大幅减少生产中途更换工装的次数和非增值操作,提升效率与一致性。
12. 单板结构设计说明
12.1 结构要素图及尺寸
单板的长、宽、厚等关键外形尺寸必须与PCB工艺设计章节中定义的参数严格保持一致,并在正式的结构图纸中明确标注,作为所有机械设计的基准。
12.2 与结构件有关的器件信息
| 器件名称 | 器件编号 | 厂家 | 型号 | 规格 | 引脚定义 |
| 连接器 | |||||
| 锁附卡扣 | |||||
| …… |
- 关键器件定义:
- 连接器:明确所有与外部(如背板、线缆、子卡)连接的板对板连接器、线对板连接器的型号、位置、高度和禁布区。对于高插拔力或高精度连接器,需定义导向销、锁紧卡扣的规格与布局。
- 安装点:定义用于主板固定、散热器固定、加固板安装的螺钉孔、铆接柱的位置、规格及公差。
- 限高与间隙:识别并明确所有高于PCB表面的器件(如大型散热器、电容、连接器)的最大高度(Z轴空间),确保与机箱、相邻板卡或散热风道有足够的安全间隙。
12.3 线缆互连设计
- 设计要求:需详细定义所有从主板引出的内部线缆规范:
- 种类与接口:明确线缆类型(如电源、SAS/SATA、管理、高速差分等)、对应的连接器型号及在主板上具体位置(接口丝印)。
- 性能指标:规定线缆的电气性能(如阻抗、插损)、长度、线规、屏蔽方式及弯曲半径要求。
- 可维护性:线缆布局应考虑装配顺序、走线路由、应力释放和可插拔性,避免在维护时与其它部件干涉。
12.4 结构系统集成与兼容性
- 机箱结构继承:整机机械结构(含拉手条、前面板、内部框架)沿袭自成熟的上一代平台设计方案。此方案旨在降低开发风险,确保风道、扩展槽位、对外接口面板的兼容性。但仍需结合新主板布局进行适配性验证。
12.5 紧固与包装
- 紧固方式:主板与机箱(或主板托盘)之间采用多点螺钉紧固,确保在运输、振动及维护插拔周边卡件时,主板具有足够的机械强度和接地连续性。
- 包装防护:单板包装方式与整机产品标准一致,通常采用定制防静电泡棉与包装盒,确保在运输和存储过程中能有效防护,避免机械损伤和静电损害。
12.6 通用结构设计考量补充
- 配合精度:主板与背板、导销与导套、散热器与CPU之间的配合需考虑公差累积,确保一次装配成功。
- 装配防呆:通过不对称的连接器布局、颜色标识或物理限位,防止板卡、线缆的错误插接。
- 辅助特征:考虑生产与维修的便利性,可在主板非关键区域设计提手凹槽、对准标记等。
- 应力释放:对于易受应力影响的区域(如大型BGA芯片四周),在布局和固定策略上需避免因主板弯曲或螺钉锁附过紧导致的焊接点应力集中。








