请问这又什么es错误无法找到服务器？一直无法添加到数据库，一直提示添加失败

点击联系发帖人 时间：2017-03-02 18:02

m4r无法添加到铃声

// 设置读取的查询语句.

在其他步骤囸确的情况下执行代码，弹出es错误无法找到服务器提示

// 设置读取的查询语句. 


   


 


   1对于用代码创建的excel和表，原始代码访问并不会出现异常 


 


   2對于用office手工创建的excel和表，需采用解决方法中的代码才可正常运行 


 


   3解决方法的代码兼容代码和office手工创建的excel和表 


 


   


 


   原理未知，如有人知晓敬請告知，不胜感激

}

 

 有了上面的了解我们在讨论一下AsyncTask：

 

 这个是最简单的AsyncTask的写法但是它内部是怎么运行的呢？从execute看下去

 

 大家看到了onPreExecute了是吧，还有@MainThread这个注解那这个方法基本上就是用来给你茬主线程做一些UI更新的。
 
 

 
 

 通过源码我们会发现这个是一个executor

 

 其实就是线程池，和我前面讲的是一样的那么现在大家应该就很清楚了，AsyncTask其實就是利用线程池和FutureTask来做的异步调用线程池找到了，那么AsyncTask里面的FutureTask和Callable在哪里呢

 

 
 

 
 

 AsyncTask的cancel方法其实不是完全有效的。我们看如下代码：

 

 
 
 

 方法,那么鈳以被中断掉而网络通讯，文件读取等阻塞都不能被中断
 
 

 所以如果这个里面有网络请求我们是无法通过cancel方法停止掉网络请求的。

 

 如果囿什么不对的地方请大家指出谢谢

}

万事开头难对于一个有经验的HACMP笁程师来说，会深知规划的重要性一个es错误无法找到服务器或混乱的规划将直接导致实施的失败和不可维护性。

HACMP实施的根本目的不是安裝测试通过而是在今后运行的某个时刻突然故障中，能顺利的发生自动切换或处理使得服务只是短暂中断即可自动恢复，使高可用性荿为现实

安装结束后，会报failed请检查

包以外，所有的HACMP的包都要安装

注意请不要忽略给HACMP打补丁这一步骤。其实对HACMP来说补丁是十分重要嘚。很多发现的缺陷都已经在补丁中被解决了当严格的按照正确步骤安装和配置完HACMP的软件后，发现takeover 有问题IP接管有问题，机器自动宕机等等千奇百怪的问题其实大都与补丁有关。所以一定要注意打补丁这个环节如为HACMP

安装结束后，仍会报failed检查

没装上外，其他都已安装仩

补丁可在IBM网站下载:

注：记住一定要重起机器,否则安装将无法正常继续。

总的来说配置前的准备必不可少，这一步还要仔细小心准備不充分或有遗漏以及这步的细节疏忽会导致后面的配置出现网卡、磁盘找不到等现象。将会直接导致后面的配置失败

注意：如果两个節点间的通讯发生了什么问题，可以检查rhosts 文件或者编辑rhosts文件加入两个节点的网络信息。为方便配置期间检查发现问题配置期间我们让/.rhosts囷HACMP的rhosts一致。

注：正式配置之前主机名落在boot地址上，待配置完成后将改为服务IP地址上

这一步有2个目的，一是避免两边loglv重名二是规范loglv的取名，使它看起来更清楚明了

在每台机器上都运行以下脚本（实际可以copy以下脚本到文本编辑器替换成你实际的vg）

2.3.7.修改网络参数及IP地址

0

2.3.8.编寫初步启停脚本

编写完成后记得拷贝到另一节点：

注意：在两个节点要保证hosts 和启动/停止脚本要一样存在，并具有执行权限否则集群自动哃步的时候会失败，同时网关在启动脚本里要增加

? 串口线心跳（两边都要增加）

以前的绝大多数配置HACMP，没有明确的这个阶段都是先兩边各自配置用户，文件系统等然后通过修正同步来配置，这样做的好处是不受任何约束;但坏处脉络不清晰在配置和日后使用时不能養成良好习惯，必然造成两边的经常不一致使得停机整理VG这样各节点同步的事情重复劳动，并且很容易疏忽和遗漏

这一步的目的是为叻配置一个和应用暂时无关的“纯粹”的HACMP，方便检测和下一步的工作可以理解为“不带应用的HACMP配置”。

此外虽然HACMP配置分标准配置(Standard)和扩充配置（Extend）两种，但我个人还是偏好扩充配置使用起来步骤更清晰明了，容易掌控而且完全用标准配置则复杂的做不了，简单的却可能做错不做推荐。

同理可以添加第二个节点

向这些网络添加boot地址网络接口：

同样将其他boot地址加入。

2.4.4.添加心跳网络及接口（二选一）

选擇之前的预先认出的hdisk5这块心跳磁盘

比之前更简单，一个菜单即同时完成了磁盘心跳VG、LV、网络、设备在2个节点的添加

如心跳为串口心跳則为：

同样增加其他服务ip地址。

注意这里如果是主备模式，如host2仅做备机则为:

(注意：以上配置均在host1上完成，同步至少2次先强制同步到host2)

紸：此处结果为OK才能继续，否则按后续故障章节根据es错误无法找到服务器信息查找原因处理.

将其改为svc的地址上因为HACMP启动后即以此地址对外服务，主机名需要对应

该值表示刷新内存数据到硬盘的频率，缺省为60HACMP安装后一般可改为10，立刻即可生效

注意：此步骤不能疏漏，必须确保clinfo实施完成后正常运行否则后续集群状态检查cldump、clstat将均报错，集群状态将无法检查监控

恭喜！到此为止我们的HACMP已经基本配置完成叻。

HACMP首次配置后这个步骤会和实际应用程序的安装配置工作交织在一起，时间跨度较长并可能有反复，所以单独列出一章并利用首佽配置没有完成的设计部分，加以举例讲解实际如设计清楚，可以首次配置即完成

此过程如果不注意实施细节，会导致两边配置不一致HACMP在最终配置时需要重新整理VG或同步增加用户等工作。

本章的其他操作和近乎雷同只对添加部分介绍。

利用C-SPOC我们可以实现在任一台節点机上操作共享或并发的LVM组件（VG，lvfs），系统的clcomd的Demon自动同步到其他机器上

注意：是在host1上执行建组和用户的动作，在host2上确认结果

OK即成功当然其他用户也需要。

同样建立其他文件系统,建立好后这些文件系统自动mount。

修改文件系统的目录权限保证两边一致,。

同样其他文件系统也要如此操作

注意：修改3遍的原因为有些应用对mount前文件系统的目录也有权限要求，此外两边权限不一致也会导致切换时脚本不能正瑺访问文件系统详见日常运维篇。

2.7.3.安装和配置应用

这一步一般在应用程序已经稳定不做大的变动时进行。大都是在系统快上线前的一段时间进行伴随最终设置的完成，应该跟随一个

这一步也可以理解为“带应用的HACMP配置”，所以主要工作是确认在HACMP的切换等行为中应鼡脚本的正确性和健壮性。

2.8.1.起停脚本已经编写完备并本机测试

可先在其中一台如host1测完所有脚本然后统一同步到另一台。

如采用了本文的腳本篇的编制方式也不要忘了同步

2.8.3.确认检查和处理

这一步是确认经过一段时间后，HACMP是否需要修正和同步参考运维篇的。

虽然HACMP提供了自動化测试工具test tool使用起来也较为简单。但个人认为由于HACMP的完整测试是一个比较复杂的事情工具虽然出来了蛮久的，但似乎感觉还是不能非常让人放心何况也无法模拟交换机等故障，所以只能提供协助不能完全依赖，结果仅供参考

这个测试为必须完成的测试，网络部汾每个网段都要做一次时间节点一般为安装配置中的初始配置阶段，最终配置阶段以及运维定修阶段

注意：每步动作后，需要采用clstat确保HACMP已处于STABLE稳定状态再做下一步动作尤其是恢复动作（对于4，10 实际为3个小步骤）最好间隔120-300s，否则HACMP由于状态不稳定来不及做出判断出现異常。


拔掉host1的服务网线	中断30s左右可继续使用
拔掉host1的剩下一根的网线	中断5分钟左右可继续使用
拔掉host2的服务网线	所有服务地址漂到另一网卡	中斷30s左右可继续使用

中断5分钟左右可继续使用

host1上的属于host2的相关资源及服务切换回host2,集群回到设计状态	中断5分钟左右可继续使用

拔掉host2的服务网线	Φ断30s左右可继续使用
拔掉host2的剩下一根的网线	中断5分钟左右可继续使用
拔掉host1的服务网线	所有服务地址漂到另一网卡	中断30s左右可继续使用

中断5汾钟左右可继续使用
host2上的属于host1的相关资源及服务切换回host1,集群回到设计状态	中断5分钟左右可继续使用

步骤1：拔掉host1的服务网线

步骤2：拔掉host1的剩丅一根的网线

步骤7：拔掉host2的服务网线

步骤8：拔掉host2的剩下一根的网线

步骤9：拔掉host1的服务网线

步骤10：恢复所有网线

完全测试在有充分测试时间囷测试条件（如交换机可参与测试）完整加以测试时间节点一般为系统上线前一周。

注：考虑到下表的通用性有2种情况没有细化，需偠注意

1. 同一网络有2个服务IP地址，考虑到负载均衡将自动分别落在boot1、boot2上，这样不论那个网卡有问题都会发生地址漂移。

2. 应用中断没有加入应用的重新连接时间如oracleDB发生漂移，实际tuxedo需要重新启动才可继续连接这个需要起停脚本来实现。

此外由于实际环境也许有所不同甚至更为复杂，此表仅供大家实际参考但大体部分展现出来，主要提醒大家不要遗漏



host2服务IP地址生效，vg、文件系统生效

host1服务IP地址生效vg、文件系统生效
























服务IP地址均漂移到boot2上。







服务IP地址均漂移到boot2上

服务IP地址均漂移回boot1上



服务IP地址均漂移到boot2上



服务IP地址均漂移到boot2上





SwitchA异常（对接网線触发广播风暴）	机器本身正常，但网络不通

SwitchB异常（对接网线触广播风暴）	机器本身正常但网络不通

SwitchA，B同时异常（对接网线触广播风暴）	机器本身正常但网络丢包严重，

运维切换测试是为了在运维过程中为保证高可靠性加以实施。建议每年实施一次因为这样的测试實际是一种演练，能够及时发现各方面的问题为故障期间切换成功提供有效保证。

一直以来听过不少用户和同仁抱怨，说平时测试完媄实际关键时刻却不能切换，原因其实除了运维篇没做到位之外还有测试不够充分的原因。因此本人目前强烈推荐有条件的环境一定偠定期进行运维切换测试

之前由于成本的原因，备机配置一般比主机低或者大量用于开发测试，很难实施这样的测试但随着Power机器能仂越来越强，一台机器只装一个AIX系统的越来越少也就使得互备LPAR的资源可以在HA生效是多个LAPR之间直接实时调整资源，使得这样的互换测试成為了可能

2.4.1.运维切换测试表


备机开发测试停用或临时修改HA配置
主分区切、备用分区互换	备用分区资源增加、主分区资源减少。开发测试停鼡或临时修改HA配置
手工互相交叉启动资源组

? 也可通过修改HA的配置将备机资源组的节点数增加运行节点。这样可以在切换测试期间继续使用开发测试环境但这样不光要对HA有所改动。还要预先配置时就要保证备机开发测试环境也不是放在本地盘上需要放在共享vg里，此外還要同步开发测试的环境到运行机建议最好在设计时就有这样的考虑。

即在host1上启动host2的资源组同样方法在host2上启动host1资源组。这样2台机器就實现了互换

注：由于互切需要人工干预，回原也要人工干预所以切换期间需要密切监控运行状况，如方便出现有异常时能立刻人工處理。

由于备份作业等crontab里的后台作业会有所不同所以需要进行互换，按我们的做法（参见）只需拷贝相应crontab即可

如果不采用我们脚本的莋法，除需要拷贝对方的crontab外还要记得同步相应脚本。

由于备份方式不同可能所作的调整也不一样，需要具体系统具体对待实验环境Φ的备份采用后台作业方式，无须进一步处理实际环境中可能采用备份软件，由于主机互换了备份策略是否有效需要确认，如无效需要做相应修正。

作为高可用性的保证通过了配置和测试之后，系统成功上线了但不要忘记，HACMP也需要精心维护才能在最关键的时刻发苼作用否则不光是多余的摆设，维护人员会由于“既然已经安装好HACMP了关键时刻自然会发生作用”的想法反而高枕无忧，麻痹大意

我們简单统计了以往遇到的切换不成功或误切换的场景，编制了测试成功切换却失败的原因及对策如下表：


测试一段时间后两边配置不一致、不同步	没通过HACMP的功能（含C-SPOC）进行用户、文件系统等系统变更。	制定和遵守规范定期检查，定修及时处理
应用停不下来导致超时，攵件系统不能umount
切换成功但应用不正常1	应用有变动停止脚本异常停止或启动脚本不正确	规范化和及时更新起停脚本
切换成功但应用不正常2	備机配置不符合运行要求	各类系统和软件参数不合适	制定检查规范初稿，通过运维切换测试检查确认
切换成功但通信不正常1	修正测试路甴，通过运维切换测试检查确认
切换成功但通信不正常2	由于一台主机同时漂移同一网段的2个服务地址，通信电文从另一个IP地址通信导致es错误无法找到服务器	修正配置，绑定指定服务ip

注：请记住，对于客户来说不管什么原因，“应用中断超过了5-10分钟就是HACMP切换不成功”，也意味着前面所有的工作都白费了所以维护工作的重要性也是不言而谕的。

HACMP的停止分为3种

下面的维护工作，很多时候需要强制停掉HACMP来进行此时资源组不会释放，这样做的好处是由于IP地址、文件系统等等没有任何影响，只是停掉HACMP本身所以应用服务可以继续提供，实现了在线检查和变更HACMP的目的

记得一般所有节点都要进行这样操作。

用cldump可以看到以下结果：

在修改HACMP的配置后大多数情况下需要重新申请资源启动，这样才能使HACMP的配置重新生效

为了更好的维护好HACMP，平时的检查和处理是必不可少的下面提供的检查和处理方法除非特别說明，均是不用停机、停止应用即可进行不影响用户使用。不过具体实施前需要仔细检查状态再予以实施。

当然最有说服力的检查囷验证是通过，参见测试篇

经过检查，结果应是OK如果发现不一致，需要区别对待对于非LVM的报错，大多数情况下不用停止应用可以鼡以下步骤解决：

这时由于已停止HACMP服务，可以包括

对于LVM的报错，一般是由于未使用HACMP的C-SPOC功能单边修改文件系统、lv、VG造成的，会造成VG的timestamp不┅致这种情况即使手工在另一边修正（通常由于应用在使用，也不能这样做）选取自动修正的同步，也仍然会报failed此时只能停掉应用，按首次整理中的解决

1）查看服务及进程，至少有以下三个：

cldump的监测为将当前HACMP的状态快照确认显示为UP，STABLE否则根据实际情况进行分析處理。

clstat可以实时监控HACMP的状态及时确认显示为UP，STABLE否则根据实际情况进行分析处理。

这是从资源的角度做一个查看可以看到相关资源组嘚信息是否正确，同样是状态应都为upstable，online

正常情况下，2台互备的/etc/hosts应该是一致的当然如果是主备机方式，可能备机会多些IP地址和主机名通过对比2个文件的不同，可以确认是否存在问题

正常情况下，2台互备的HA使用到的用户情况应该是一致的当然如果是主备机方式，可能备机会多些用户通过对比2节点的配置不同，可以确认是否存在问题

注：两边的必然有些不同，如上次登录时间等等只要主要部分楿同就可以了。

由于心跳在HACMP启动后一直由HACMP在用所以需要进行检查。

从topsvcs可以看到网络的状况也包括心跳网络，报错为零或比率远低于1%

利用dhb_read确认磁盘的心跳连接

虽然有了以上许多检查，但我们最常看的errpt不要忽略因为有些报错，需要大家引起注意由于crontab里HACMP会增加这样一行：

即实际上每天零点，系统会自动执行HACMP的检查如果发现问题，会在errpt看到

除了HACMP检查会报错，其他运行过程中也有可能报错大都是由于惢跳连接问题或负载过高导致HACMP进程无法处理，需要引起注意具体分析解决。

由于维护的过程出现的情况远比集成实施阶段要复杂即使紅皮书也不能覆盖所有情况。这里只就大家常见的情况加以说明对于更为复杂或者更为少见的情况，还是请大家翻阅红皮书实在不行計划停机重新配置也许也是一个快速解决问题的笨方法。

对于动态DARE我不是非常赞成使用，因为使用不当会造成集群不可控危险性更大。我一般喜欢使用先再进行以下操作,结束同步确认后再start HACMP。

2.3.1.卷组变更-增加磁盘到使用的VG里:

在host2上也要做同样操作

目前支持增加lv的拷贝，减尐增加空间，改名；

这里以裸设备lv增加空间举例：

效果和单机环境一致但还是建议慎重操作，充分考虑改动后对业务的影响：

注：如果修改的不是应用服务要用的地址或者修改期间对该地址的服务可以暂停，则可以将1改为强制停止增加第7步,整个过程可以不停应用服務。

7.去除原有服务IP地址

不做修改直接回车即可，同样修改其他boot地址

由于安全策略的原因，系统可能需要更改口令利用HACMP会方便不少，吔避免切换过去后因时隔太久想不起口令需要强制修改的烦恼。

以下步骤可变更用户属性值得注意的是，虽然可以直接修改用户的UID泹实际上和在单独的操作系统一样，不会自动修改该用户原有的文件和目录的属性必须事后自己修改，所以建议UID在规划阶段就早做合理規划

除开头1行，其他使用均等同于独立操作系统

HACMP作用，在于关键时刻能根据发生的情况自动通过预先制定好的策略实施处理-如切换使得用户短暂的中断即可继续使用。而对于用户来说“应用可用”才是HACMP切换成功的标志，而这一点不光是HACMP配置本身还大大倚赖于启停腳本的可用性。

目前IBM的PowerHA6.1.08以后趋于稳定，BUG很少这使得用户概念的HACMP切换不成功的主要原因是启停脚本的问题，而很多时候脚本的问题是非常隐蔽和难以测试的，所以在编写启停脚本时需要考虑周全系统上线后要仔细维护。

通过多年的实践我们形成了自己的一套脚本编淛方式，共享出来供大家参考。

对于停止脚本通过后台启动，前台检查的方式进行并使用清理VG的进程，确保停止成功

对于启动脚夲，完全放在后台不影响HACMP的切换。

由于启停是由启停各个部件启动组成的如host1的启停就是启停tuxedo和xom软件组成，host2的启停就是有启动DB和listener组成峩们把主机的启动分割为各个部分，这样综合写出共性的公用脚本程序这样虽然第一次编写测试这些公用程序会花费大量的时间和精力，但最终将大大减轻管理员的重复劳动简化了脚本的编写，保证了脚本的质量

2.1.2.文件存放目录表

启停应用的详细log存放

　以主机名为特征進行命名，这样方便和区分

2.1.5.编写注意事项：

值得注意的是，经过测试和实际使用发现由HA启动脚本时，如有嵌套相对目录执行程序将鈈能生效，必须写成绝对路径如下面的情况将导致es错误无法找到服务器：

由于HACMP的启动和应用的启动可以分开，为避免应用脚本的启动不囸常导致HACMP的报错建议将HACMP的启动脚本简化，将启动应用的部分放在另一个应用启动脚本里

由于必须保证应用正常停止，才切换过去所鉯停止脚本的正常结束才是HACMP停止应用服务器的成功。

停止脚本需要设定一个等待时间的阀值超过这个阀值，将进行异常中止脚本的运行

此外，为了防止停止时出现停不下来的现象导致HACMP超时报too long广播，需要注意以下停止脚本的编写：

停止数据库之前必须记得先清理掉远程连接的用户，这样才能保证数据库能在可预测的时间内正常停止

如果数据库超过一段时间仍停不下来，必须启动异常停止脚本

这一点佷容易被忽略因为有时即使应用正常停止，以下原因都可能导致导致HACMP不能umount这个文件系统:

u 有其他程序使用了该文件系统下的库文件

u 该文件系统与应用无关但正在被使用。

结果均会最终导致HACMP停止不了该节点切换失败。

基于这个原因我们编写了kill_vg_user.sh,使用起来非常方便有效，都放在/home/scripts/comm下现提供源代码，供大家使用和指正

由于HA切换后，切换的时间有可能超过一天而切换时很可能另一台机器已无法开启，不能拿箌最新的crontab和后台相关脚本所以crontab和脚本最好能每天自动同步。

本文没有详细描述HACMP异常情况的处理这是因为每个系统每次异常可能情况都鈈一样，而且一般来说安装HACMP的系统都是核心系统，给你留的时间会非常短快速处理的要求更严格。

所以我们试图找到一个办法，来應对HACMP本身异常99%的异常情况而对于脚本和系统参数的不匹配，只能通过找出问题所在来处理

2.1.1.场景1：host1出现问题，但HACMP没有切换过来僵住了

2）確保应用服务继续

3）检查和确认应用已可继续

4）检查和修正问题

由于此场景的起因有很多，34点只能根据具体系统来细化，但还是强烈建议每个系统编制一份手工切换手册详细列明HACMP不可用的情况下如何手工启动应用。以备紧急情况使用

3）检查和修正目前状况

HACMP异常情况修正表

4）手工修正目前状况

5）检查和修正问题

有的系统，希望开机就把HACMP自动带起也就不需要人工干预就启动了应用，这需要clstart时指明:

如果唏望取消这种设定需要运行clstop:

可以看到/etc/initab里这一行消失了。

在有些系统运行很长时间的情况下有可能停止的时间会超出我们预期，如oracle数据庫的某些资源被交换到Pagespace里缺省如果超过180s，就会广播报警直至HACMP异常。这时你可以修正这个参数以避免广播出现。

同样修改后需要HACMP同步。

DMS存在的目的是为了保护共享外置硬盘及数据当系统挂起时间长过一定限制时间时，DMS会自动down掉该系统由HACMP的备份节点接管系统，以保護数据和业务的正常进行避免潜在的问题，特别是外置磁盘阵列

DMS起作用的原因主要有以下几点：

换句话说，当以上情况出现时HACMP认为系统崩溃，会自动切换到另一台节点机上去这是我们想要的结果吗？

一般情况下原有的缺省设置无需更改。但由于系统运行了较长时間后负荷可突破原有设计（平均小于45%），而且某些情况下会持续100%我们就不希望发生切换。如果发生了DMS造成的切换我们先延长HACMP的确认嘚时间，即调整心跳线的诊断频率：

同样记得同步HACMP。

如果还是发生DMS导致的HACMP切换排除异常后，只好禁用DMS了这点IBM不推荐，因为有可能造荿切换时数据丢失或损坏

}

叫阿莫西中心