elasticsearch hadoop的data目录会存原始数据吗

点击联系发帖人 时间：2017-10-02 06:40

elasticsearch head

大数据量Elastic数据迁移方法及注意事项
ES集群Cluster_A里的数据（某个索引或某几个索引），需要迁移到另外一个ES集群Cluster_B中。
ES集群的索引有大有小，个别索引达到5T磁盘空间占用。
：Centos7 / Centos6.5/ Centos6.4
Elastic：2.2.0
3 总结的方法
1）查询并导出数据
2）拷贝ES物理目录/文件
3）ES快照数据备份和恢复
二、迁移方法
分别进行以上方法的详细介绍：
1 查询并导出数据
通过ES提供的查询API，写各种程序，把数据导出csv，或者把数据查询出来，直接入库到新的ES集群中。
#coding=utf-8
import sys
import pyes
index_list = [
[&index_A&, &type_A&],
[&index_B&, &type_B&],
[&index_C&, &type_C&],
ES_URL = &https://192.168.1.1:9200/&
NEW_ES_URL = &https://192.168.2.1:8200/&
def main():
for _index, _type in index_list:
conn = pyes.es.ES(ES_URL)
search = pyes.query.MatchAllQuery().search(bulk_read=10000)
hits = conn.search(search, _index, _type, scan=True, scroll=&30m&, model=lambda _,hit: hit)
conn2 = pyes.es.ES(NEW_ES_URL)
for hit in hits:
conn2.index(hit['_source'], _index, _type, hit['_id'], bulk=True)
count += 1
if count % 10000 == 0:
print count
conn2.flush()
conn2.flush()
conn2 = None
conn = None
if __name__ == '__main__':
1.3注意事项
1）需要安装python的pyes模块，注意pyes的版本，此处的版本为：pyes.0.20.1
2）用了查询ES的scroll方式，也有一种直接通过ES的DSL查询语句用分页from和size查询，但是ES的分页查询到了千万级别之后，from就会慢的出奇，甚至报错，不信的同学去尝试吧，等着功亏一篑&.
3）客户现场的数据级别是物理存储大概在5T(一个副本)，条数大概1百亿。现场使用该方法亲测之后，未解决ES迁移的问题。pyes在约到后面查询越慢，最后ES报错&..
1）百万、千万级别条数的数据，可以尝试该方法。
2 拷贝ES物理目录/文件
ES的文件存在磁盘中，把物理文件一模一样拷贝一份到新的集群环境中，达到数据迁移的效果。
1）找到ES的存储目录，一般可以到elasticsearch.yml中找到path.data的配置
2）集群下一般会有多个节点，所以ES的存储目录也就有多个
3）一般ES的存储目录下，会存储一个集群名字一样的文件夹，需要拷贝的就是这个文件夹.
4）环境如下：
集群名字：Cluster_A
机器A：一个节点 192.168.1.1
数据存储目录：/opt/data1,/opt/data2
机器B：三个节点 192.168.1.2
数据存储目录：/opt/data1,/opt/data2
数据存储目录：/opt/data3,/opt/data4
数据存储目录：/opt/data5,/opt/data6
新的集群：
集群名字：Cluster_A
机器A：一个节点 192.168.2.1
数据存储目录：/opt/data1,/opt/data2
机器B：三个节点 192.168.2.2
数据存储目录：/opt/data1,/opt/data2
数据存储目录：/opt/data3,/opt/data4
数据存储目录：/opt/data5,/opt/data6
5）迁移代码如下：
新集群机器A：192.168.2.1如下操作
scp &r root@192.168.1.1:/opt/data1/Cluster_A /opt/data1/
scp &r root@192.168.1.1:/opt/data2/Cluster_A /opt/data2/
新集群机器B：192.168.2.2如下操作
scp &r root@192.168.1.2:/opt/data1/Cluster_A /opt/data1/
scp &r root@192.168.1.2:/opt/data2/Cluster_A /opt/data2/
scp &r root@192.168.1.2:/opt/data3/Cluster_A /opt/data3/
scp &r root@192.168.1.2:/opt/data4/Cluster_A /opt/data4/
scp &r root@192.168.1.2:/opt/data5/Cluster_A /opt/data5/
scp &r root@192.168.1.2:/opt/data6/Cluster_A /opt/data6/
3 ES快照数据备份和恢复
使用ES官网提供的快照备份方法，将旧集群ES的索引进行备份，拷贝备份出来的所有文件，在新的集群中进行恢复。
官网写的非常简单：先创建仓库(repository)，再往仓库里添加一个快照(snapshot)，查看备份状态，That&s all。但是实践需要麻烦很多了。
1）旧的集群备份出来的东西，需要拷贝到新集群机器上。解决两个问题：一是旧集群没有足够的空间存储这些东西；二是反正备份出来都需要拷贝到新的集群中。此处想到一个方法，将新集群机器的目录远程Mount到旧集群机器上。
2）挂载目录，2.1）和2.2）可以任选一种方式
2.1）使用sshfs进行挂载：
// 在每台机器上安装sshfs
yum install fuse sshfs
// 每台机器上创建Mount共享目录
mkdir /opt/backup_es
// 旧集群的每台机器上挂载共享目录(分别挂载了新机器的/opt/data07目录到/opt/backup_es)
sshfs root@192.168.2.1:/opt/data07 /opt/backup_es -o allow_other
sshfs root@192.168.2.2:/opt/data07 /opt/backup_es -o allow_other
// 测试运行ES的用户是否有对共享目录的写权限
sudo -u elastic touch /opt/backup_es
// 在旧机器上将共享目录的权限付给ES的运行用户
chown elastic:elastic -R /opt/backup_es
2.2）使用Mount nfs进行挂载：
// 在新集群的机器上(192.168.2.1, 192.168.2.2)添加共享的文件夹和客户端可以访问的IP地址
vi /etc/exports
/opt/data07 192.168.1.1(rw,no_root_squash)
/opt/data07 192.168.1.2(rw,no_root_squash)
// 查看共享文件夹和
exportfs -rv
// 重启启动新集群机器的NFS服务
services nfs restart
// 旧集群的每台机器上创建共享目录
mkdir /opt/backup_es
// 旧集群机器上进行Mount挂载
mount -t nfs 192.168.2.1:/opt/data07 /opt/backup_es
mount -t nfs 192.168.2.2:/opt/data07 /opt/backup_es
// 在旧机器上将共享目录的权限付给ES的运行用户
chown elastic:elastic -R /opt/backup_es
3）创建ES仓库
// 创建ES仓库my_backup
https://192.168.1.1:9200/_plugin/head/的复合查询，通过PUT进行发送请求：
PUT _snapshot/my_backup
&type&: &fs&,
&settings&: {
&location&: &/opt/backup_es&,
&compress&: true
// 查看仓库的状态
https://192.168.1.1:9200/_snapshot
4）创建快照备份
// 针对具体的index创建快照备份(可以指定1个快照1个索引，或1个快照多个索引)
// 后面会依据快照的名称来进行恢复
https://192.168.1.1:9200/
PUT _snapshot/my_backup/snapshot_name_A
&indices&: &index_A, index_B&
成功之后，备份已经异步开始了。
5）查看备份的状态
// 查看备份状态
https://192.168.1.1:9200/_snapshot/my_backup/snapshot_name_A/_status
细心的同学会看到ES会同时进行几个分片的备份，而且显示备份的数据情况。
有心的同学会看到，旧集群上共享的两个目录/opt/backup_es会均分备份出来的数据。这一点ES还是比较强大的，赞一个。应该还可以指定多个目录（作者没有试过，但是应该也是OK的，这样就可以挂载多个目录，解决磁盘空间不足的问题了）
6）最后，就是等，直至所有的的备份都完成。
备份完成后，查看旧集群每台机器的/opt/backup_es目录，查看备份出的东东。
7）在新集群中恢复
// 在新集群每台机器上将共享目录的权限付给ES的运行用户
chown elastic:elastic -R /opt/data07
// 停止ES，设置elasticsearch.yml的参数
path.repo: /opt/data07
// 启动ES，在新集群创建仓库
https://192.168.2.1:9200/_plugin/head/的复合查询，通过PUT进行发送请求：
PUT _snapshot/my_backup
&type&: &fs&,
&settings&: {
&location&: &/opt/data07&,
&compress&: true
8）在新集群中恢复数据
// 使用RESTful API进行备份的恢复
https://192.168.1.1:9200/
_snapshot/my_backup/snapshot_name_A/_restore
// 查看恢复的状态
https://192.168.1.1:9200/
_snapshot/my_backup/snapshot_name_A/_status
9）等，直至恢复完成。
3.3注意事项
1）索引很大，需要有足够的空间存储备份出来的数据，挂载磁盘和设置path.repo来解决该问题。
2）在简历仓库的时候，会报错，找不到快照目录/opt/backup_es
需要在elasticsearch.yml中设置path.repo: /opt/backup_es
3）挂载的磁盘需要赋权限，让ES的用户能读写。Sshfs的时候加上 -oallow_other；Mount的时候需要对目录进行赋权限chown
4） Mount nfs的时候需要注意配置：vi /etc/exports
/opt/data.1(rw,no_root_squash)
/opt/data.2(rw,no_root_squash)
5）新集群中如果有索引和备份出来的索引有冲突（索引已存在），恢复不成功。
解决：可以将旧的索引重命名，然后导入新集群中。导入成功后，将两个索引建立一个别名。
6）恢复期间，整个集群会变成红色(集群不可用)，最好半夜的时候进行。elasticsearch 索引大小? - 知乎15被浏览2930分享邀请回答02 条评论分享收藏感谢收起博客分类：
config目录下有2个配置文件：es的配置文件（elasticsearch.yml）和日志配置文件（logging.yml ）
cluster.name: elasticsearch配置es的集群名称，默认是elasticsearch，es会自动发现在同一网段下的es，如果在同一网段下有多个集群，就可以用这个属性来区分不同的集群。
node.name: "Franz Kafka"节点名，默认随机指定一个name列表中名字，该列表在es的jar包中config文件夹里name.txt文件中，其中有很多作者添加的有趣名字。
node.master: true指定该节点是否有资格被选举成为node，默认是true，es是默认集群中的第一台机器为master，如果这台机挂了就会重新选举master。
node.data: true指定该节点是否存储索引数据，默认为true。
index.number_of_shards: 5设置默认索引分片个数，默认为5片。
index.number_of_replicas: 1设置默认索引副本个数，默认为1个副本。
path.conf: /path/to/conf设置配置文件的存储路径，默认是es根目录下的config文件夹。
path.data: /path/to/data设置索引数据的存储路径，默认是es根目录下的data文件夹，可以设置多个存储路径，用逗号隔开，例：path.data: /path/to/data1,/path/to/data2
path.work: /path/to/work设置临时文件的存储路径，默认是es根目录下的work文件夹。
path.logs: /path/to/logs设置日志文件的存储路径，默认是es根目录下的logs文件夹
path.plugins: /path/to/plugins设置插件的存放路径，默认是es根目录下的plugins文件夹
bootstrap.mlockall: true设置为true来锁住内存。因为当jvm开始swapping时es的效率会降低，所以要保证它不swap，可以把ES_MIN_MEM和ES_MAX_MEM两个环境变量设置成同一个值，并且保证机器有足够的内存分配给es。同时也要允许elasticsearch的进程可以锁住内存，linux下可以通过`ulimit -l unlimited`命令。
network.bind_host: 192.168.0.1设置绑定的ip地址，可以是ipv4或ipv6的，默认为0.0.0.0。
network.publish_host: 192.168.0.1设置其它节点和该节点交互的ip地址，如果不设置它会自动判断，值必须是个真实的ip地址。
network.host: 192.168.0.1这个参数是用来同时设置bind_host和publish_host上面两个参数。
transport.tcp.port: 9300设置节点间交互的tcp端口，默认是9300。
press: true设置是否压缩tcp传输时的数据，默认为false，不压缩。
http.port: 9200设置对外服务的http端口，默认为9200。
http.max_content_length: 100mb设置内容的最大容量，默认100mb
http.enabled: false是否使用http协议对外提供服务，默认为true，开启。
gateway.type: localgateway的类型，默认为local即为本地文件系统，可以设置为本地文件系统，分布式文件系统，hadoop的HDFS，和amazon的s3服务器，其它文件系统的设置方法下次再详细说。
gateway.recover_after_nodes: 1设置集群中N个节点启动时进行数据恢复，默认为1。
gateway.recover_after_time: 5m设置初始化数据恢复进程的超时时间，默认是5分钟。
gateway.expected_nodes: 2设置这个集群中节点的数量，默认为2，一旦这N个节点启动，就会立即进行数据恢复。
cluster.routing.allocation.node_initial_primaries_recoveries: 4初始化数据恢复时，并发恢复线程的个数，默认为4。
cluster.routing.allocation.node_concurrent_recoveries: 2添加删除节点或负载均衡时并发恢复线程的个数，默认为4。
indices.recovery.max_size_per_sec: 0设置数据恢复时限制的带宽，如入100mb，默认为0，即无限制。
indices.recovery.concurrent_streams: 5设置这个参数来限制从其它分片恢复数据时最大同时打开并发流的个数，默认为5。
discovery.zen.minimum_master_nodes: 1设置这个参数来保证集群中的节点可以知道其它N个有master资格的节点。默认为1，对于大的集群来说，可以设置大一点的值（2-4）
discovery.zen.ping.timeout: 3s设置集群中自动发现其它节点时ping连接超时时间，默认为3秒，对于比较差的网络环境可以高点的值来防止自动发现时出错。
discovery.zen.ping.multicast.enabled: false设置是否打开多播发现节点，默认是true。
discovery.zen.ping.unicast.hosts: ["host1", "host2:port", "host3[portX-portY]"]设置集群中master节点的初始列表，可以通过这些节点来自动发现新加入集群的节点。
下面是一些查询时的慢日志参数设置index.search.slowlog.level: TRACEindex.search.slowlog.threshold.query.warn: 10sindex.search.slowlog.: 5sindex.search.slowlog.threshold.query.debug: 2sindex.search.slowlog.threshold.query.trace: 500ms
index.search.slowlog.threshold.fetch.warn: 1sindex.search.slowlog.: 800msindex.search.slowlog.threshold.fetch.debug:500msindex.search.slowlog.threshold.fetch.trace: 200ms
浏览: 1343070 次
来自: 南京
wahahachuang5 写道web实时推送技术使用越来越广 ...
web实时推送技术使用越来越广泛，但是自己开发又太麻烦了，我觉 ...
雪鞋了～～～～
赞！！！！！！！！！！！！！！！！！！！！！！！！赞！！！！！ ...
不错。学习一下。谢谢}

叫阿莫西中心

elasticsearch hadoop的data目录会存原始数据吗

我要回帖

更多关于 elasticsearch head 的文章

更多推荐