阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

ElasticSearch MySQL 增量同步

201次阅读
没有评论

共计 2590 个字符,预计需要花费 7 分钟才能阅读完成。

主要用到了一个 JDBC importer for Elasticsearch 的库。

想要增量同步,有一些先决条件。首先数据库中要维护一个 update_time 的时间戳,这个字段表示了该记录的最后更新时间。然后用上面的那个库,定时执行一个任务,这个任务中执行的 sql 就是根据时间戳判断该记录是否应该被更新。

这里先写一个最简单的例子来展示一下。

从上方插件官网中下载适合的 dist 包,然后解压。进入 bin 目录,可以看到一堆 sh 脚本。在 bin 目录下创建一个 test.sh:

bin=/home/csonezp/Dev/elasticsearch-jdbc-2.3.1.0/bin
lib=/home/csonezp/Dev/elasticsearch-jdbc-2.3.1.0/lib

echo '{
    "type" : "jdbc",
    "statefile" : "statefile.json",
   "jdbc": {"url" : "jdbc:MySQL://myaddr",
        "user" : "myuser",
        "password" : "mypwd",
        "type" : "mytype",
        "index": "myindex",
        "schedule" : "0 * * * * ?",
        "metrics" : {"enabled" : true
        },
        
       "sql" : [
            {"statement" : "select * from gd_actor_info where update_time > ?",
                "parameter" : ["$metrics.lastexecutionstart" ]
            }
        ]
      
    }
}' | Java \
       -cp "${lib}/*" \
       -Dlog4j.configurationFile=${bin}/log4j2.xml \
       org.xbib.tools.Runner \
       org.xbib.tools.JDBCImporter

schedule 现在设置成每分钟都执行一次,是为了方便观察行为。statefile 这一句是一定要加的。$metrics.lastexecutionstart 就是这个脚本的关键所在了,这个指的是上一次脚本执行的时间,可以通过比较这个时间和数据库里的字段来判断是否要更新。

Elasticsearch mysql 增量同步 三表联合 脚本

上面简略的说了一下 es 同步数据脚本的大致情况,但是实际情况里肯定不会像上一篇里面的脚本那么简单。比如目前我就有三张表,两张实体表,一张关联表。大致实现如下:

bin 目录建立一个 statefile.json 文件:

{"type" : "jdbc",
    "statefile" : "statefile.json",
   "jdbc": {"url" : "jdbc:mysql://",
        "user" : "",
        "password" : "",
        "type" : "actor",
        "index": "test",
           "schedule" : "0 * * * * ?",
        "metrics" : {"lastexecutionstart" : "0",
      "lastexecutionend" : "0",
      "counter" : "1" 
    },  
        
       "sql" : [
            {"statement" : "select a.actor_id as _id ,a.*,GROUP_CONCAT(b.tag_name) as tag_name from (( gd_actor_info as a  left join gd_actor_tag as ab on a.actor_id = ab.actor_id) left join gd_tag_actor as b on ab.tag_id = b.tag_id)   where a.update_time >? or ab.update_time > ? group by a.actor_id",
                "parameter" : ["$metrics.lastexecutionstart" ,"$metrics.lastexecutionstart" ]
            }
        ]
      
    }
} 

主要是 lastexecutionstart 设置为 0,为了让第一次执行能进行一次全量备份。

其实 sh 脚本信息也就都在上面了,再写一个就好了

ElasticSearch 最新版本 2.20 发布下载了   http://www.linuxidc.com/Linux/2016-02/128166.htm

Linux 上安装部署 ElasticSearch 全程记录  http://www.linuxidc.com/Linux/2015-09/123241.htm

Elasticsearch 安装使用教程 http://www.linuxidc.com/Linux/2015-02/113615.htm

ElasticSearch 配置文件译文解析 http://www.linuxidc.com/Linux/2015-02/114244.htm

ElasticSearch 集群搭建实例  http://www.linuxidc.com/Linux/2015-02/114243.htm

分布式搜索 ElasticSearch 单机与服务器环境搭建  http://www.linuxidc.com/Linux/2012-05/60787.htm

ElasticSearch 的工作机制  http://www.linuxidc.com/Linux/2014-11/109922.htm 

Elasticsearch 的安装,运行和基本配置 http://www.linuxidc.com/Linux/2016-07/133057.htm

使用 Elasticsearch + Logstash + Kibana 搭建日志集中分析平台实践  http://www.linuxidc.com/Linux/2015-12/126587.htm

Ubuntu 14.04 搭建 ELK 日志分析系统 (Elasticsearch+Logstash+Kibana) http://www.linuxidc.com/Linux/2016-06/132618.htm

Elasticsearch1.7 升级到 2.3 实践总结  http://www.linuxidc.com/Linux/2016-11/137282.htm

ElasticSearch 的详细介绍 :请点这里
ElasticSearch 的下载地址 :请点这里 

本文永久更新链接地址 :http://www.linuxidc.com/Linux/2016-11/137552.htm

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-21发表,共计2590字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中