节点损坏

在分布式 RustFS 集群中，采用了纠删码（Erasure Coding）机制，以保证在部分节点故障时仍然能够提供读写访问，并在节点重新加入后自动进行数据愈合。此文档将指导您完成以下流程：

1) 启动替换节点

硬件与系统准备 确保替换节点的服务器硬件与故障节点大致一致，包括 CPU、内存、网络配置和磁盘类型；即便使用更高配置，也不会影响集群性能。软件环境需与其他节点保持版本一致（操作系统、内核、依赖库等），以避免因环境差异导致的集群异常行为。
驱动器独占访问 如同对物理驱动器的操作，RustFS 要求对存储卷具备独占访问权限，禁止任何其他进程或脚本直接修改存储卷内的数据，否则极易造成数据损坏或冗余丢失。

DNS/Hosts 配置 如果替换节点的 IP 地址与故障节点不同，需将旧节点的主机名（如 rustfs-node-2.example.net）重新解析到新节点，以保证集群内各节点通过相同地址互相发现。
```
# 示例：在 /etc/hosts 中添加或修改行
192.168.1.12   rustfs-node-2.example.net
```
正确解析后，可通过 ping 或 nslookup 验证主机名已指向新节点。

下载与安装 按照 RustFS 官方相同版本部署流程，下载与现有节点一致的二进制或安装包，并解压到统一目录。确保启动脚本、环境变量及配置文件（如 /etc/default/rustfs）与集群中其他节点完全一致。
配置校验
- 核对 config.yaml 中的集群节点列表（endpoints）是否包含新节点的主机名与端口。
- 确保所有节点的访问密钥和权限配置相同，以避免因认证失败导致的新节点无法加入。

启动服务
```
systemctl start rustfs-server
```
或者使用您自定义的启动脚本启动 RustFS 服务，并通过 journalctl -u rustfs-server -f 查看启动日志，确认新节点已检测到其他在线节点并开始数据愈合进程。
手动监控愈合状态 使用 RustFS 管理工具（假设命令为 rustfs-admin）查看集群健康与愈合进度：
```
# 查看集群节点状态
rc cluster status

# 触发新节点的数据愈合
rc heal --node rustfs-node-2.example.net

# 实时跟踪愈合进度
rc heal status --follow
```
其中，heal 命令类似于 RustFS 的 rc admin heal，可确保所有丢失或不一致的数据分片在后台恢复到位。
社区经验参考 社区测试显示，当节点离线后再重新加入时，RustFS 将仅对新节点执行愈合操作，不会全量重新平衡集群，从而避免不必要的网络与 I/O 高峰。

总结：通过上述流程，RustFS 可在节点硬件发生彻底故障后，快速安全地替换节点并完成数据愈合，最大限度地减少集群的可用性中断。务必结合自身环境与具体命令行工具进行校对，确保配置一致与操作顺序正确。