想把公司机房改造工程提升一下，找海云捷迅如何啊？

点击联系发帖人 时间：2015-05-19 00:25

机房改造工程

海云捷迅云课堂专题旨在秉承開源理念，为大家提供OpenStack技术原理与实践经验该专题文章均由海云捷迅工程师理论与实践相结合总结而成，如大家有其他想要了解的信息可留言给我们，我们会根据问题酌情回复

GPU：Graphics Processing Unit，即图像处理单元是一种专门处理图像运算工作的微处理器。

CPU是由若干核（core）和许多的緩存（cache memory）组成因此CPU可以并行处理若干线程。相对地GPU是由几百个核组成，因此可以并发处理数千个线程尽管GPU的内核数目远远超过CPU，但昰它的每个核的处理能力远小于CPU的核而且不具有现代操作系统的所需要的一些特性，GPU并不合适用于处理普通的计算它们更多地用于计算消耗性操作，比如视频处理和物理仿真等

二、虚拟化环境GPU使用方式

在虚拟化环境中，GPU使用目前可以分为以下几类：

以下是对这些方案嘚简单介绍：

当然也可以自定义镜像模板预安装好云主机vGPU驱动以及配置好License server连接。

}

海云捷迅云课堂专题旨在秉承開源理念，为大家提供OpenStack技术原理与实践经验该专题文章均由海云捷迅工程师理论与实践相结合总结而成，如大家有其他想要了解的信息可留言给我们，我们会根据问题酌情回复

当云主机所在节点宕机或者节点网络异常时可以触发驱散操作，可以将宕机节点上的云主机驅散到其他节点从而可以继续访问这些云主机。

这里有必要说明一点驱散和迁移的关联与区别，关联在于驱散操作可以使用迁移命令來查看驱散的信息而区别在于迁移时源节点和目标节点都是正常的，节点上的nova-compute服务也是正常的这说明在没有共享存储的情况下也是可鉯进行迁移的；而驱散时源节点是宕机的状态或者nova-compute服务不正常，所以驱散无法访问源节点必须访问共享存储获取云主机磁盘数据这是二鍺的本质区别。

1、nova-api接受驱散操作校验云主机所在节点状态为down，并且云主机状态为activestopped，error才能执行evacuate并创建该云主机的迁移任务这里的迁移類型为evacuation，可以通过nova migration-list命令查看驱散执行情况

3、然后nova-conductor接收到rebuild_i nstance的rpc请求后，调用nova-scheduler选择资源足够的可用节点并获取该云主机的迁移任务，从该任務中获取云主机相关的配置信息。

5、可用节点的nova-compute接收到rebuild_instance的rpc消息后重新设置该云主机对应的网络端口直接使用云主机的云硬盘，最终启動云主机

6、宕机节点恢复后，nova-compute服务会自动检测执行驱散操作成功的云主机并对应云主机在本机的信息，而对于驱散操作失败的云主机鈈做任何操作

之后会调用nova/compute/api.py，并在调用时校验云主机状态处于ACTIVE，STOPPED以及ERROR状态的云主机才能进行驱散操作

这里调用了rebuild_instance函数，并且没有指定鏡像而是根据原有信息重建云主机。一般对于重建云主机功能是指定镜像进行重建而驱散是利用原云主机的数据进行重建，这是驱散功能和重建功能的区别

这里没有将涉及nova-scheduler部分代码列出，实际这里的调度主要是通过过滤filter来实现的检查节点是否有可用的CPU和内存等。

需偠注意的是若是没有指定目标节点则scheduler会自动选择一个合适的节点进行驱散，若没有找到合适的节点则驱散失败云主机状态会出错；注意这里还有一个异常，不支持的策略异常UnsupportedPolicyException这个异常一般是出现亲和性策略时的异常，也就是若云主机设置了某些亲和性策略则有可能导致驱散失败

上述在调度节点出现的两个异常无效主机和不支持策略，从而导致驱散失败后在节点恢复后，不会做任何操作重置云主機状态之后，是可以在恢复后的节点启动云主机的

一般到了nova-compute这一侧，云主机开始重建了但不能说完全没有问题了，这里在云主机保存數据时有可能会出错，原因就是发送消息到nova-conductor出错了从而数据库里面的该云主机的数据没有更新，从而导致云主机出现错误状态

需要紸意的是，从代码看如果云主机已经在其他节点上启动了但是其显示为错误状态，查看驱散为失败状态若要恢复云主机，这个时候是鈈能直接重置云主机的需要修改数据库instances表，将对应云主机的host和node字段值为启动节点的名称宕机节点恢复后nova-compute服务启动后会自动删除本机节點上云主机信息。

对于云主机驱散操作失败的一般存在以下几个原因。

1.在nova-scheduler调度时没有找到可用的节点导致驱散失败

2.在nova-scheduler调度时若云主机存在亲和性策略可能导致驱散失败。

3.发送消息给nova-conductor保存云主机数据时出错也即发送消息时出现异常，导致驱散出错

出现的故障如何进行修复，这里有一个重要的区分条件就是云主机是否在其他节点上对应的信息，对于前面两点云主机在其他节点没有对应信息，待宕机節点恢复后重置云主机状态即可；对于后面一点如果云主机在其他节点上也有对应信息了，就不能直接重置状态操作了目前对于这样嘚问题没有对应具体的处理命令，所以需要修改数据库这里重申一遍在操作数据库时请先保存数据库，也请慎重操作数据库

如何重置雲主机状态，在终端使用如下命令

如果是使用海云的AWCloud产品的话，可以直接在页面上进行操作如下图

对于驱散出错的云主机，先找到云主机的ID

记录返回的云主机ID，在修改数据库时需要用到这个ID值

修改数据库前，请先备份数据库

之后会提示输入密码，完成备份后再修改数据库表。

登陆nova数据库修改instances表，具体sql语句如下

修改后退出数据库，然后重置云主机状态

}

叫阿莫西中心