韩联社本篇文章981字,读完约2分钟
阿里云国际站经销商,主营阿里云,腾讯云,华为云,亚马逊aws,谷歌云gcp,微软云az,免费开户,代充值优惠大,联系客服飞机@jkkddd
通过DataWorks将Hadoop数据同步至Elasticsearch
操作流程准备工作
搭建Hadoop集群、创建DataWorks工作空间、创建与配置阿里云Elasticsearch实例。
步骤一:准备数据
在Hadoop集群中创建测试数据。
步骤二:购买并创建独享资源组
购买并创建一个数据集成独享资源组,并为该资源组绑定专有网络和工作空间。独享资源组可以保障数据快速、稳定地传输。
步骤三:添加数据源
将Elasticsearch和Hadoop的HDFS数据源接入DataWorks的数据集成服务中。
步骤四:配置并运行数据同步任务
通过向导模式配置数据同步任务,将数据集成系统同步成功的数据存储到Elasticsearch中。将独享资源组作为一个可以执行任务的资源,注册到DataWorks的数据集成服务中。这个资源组将获取数据源的数据,并执行将数据写入Elasticsearch中的任务(该任务将由数据集成系统统一下发)。
步骤五:验证数据同步结果
在Kibana控制台中,查看同步成功的数据,并按条件查询数据。
步骤一:准备数据
进入E-MapReduce控制台。
在顶部菜单栏,选择地域。
在上方菜单栏,单击数据开发。
在数据开发页面,新建一个数据开发项目,其中资源组选择默认资源组。
具体操作,请参见项目管理。
在项目列表中,单击目标项目右侧操作列下的作业编辑,新建一个作业。
具体操作,请参见作业编辑。其中作业类型选择Hive。
创建数据表并插入数据。
在代码编辑区域中,输入Hive建表语句,单击运行。
本文档使用的建表语句如下。
在运行作业对话框中配置运行参数,单击确定。
资源组:选择默认资源组。
执行集群:选择您已创建的集群。
重新新建一个作业,输入如下SQL语句,插入测试数据。
您可以选择从OSS或其他数据源导入测试数据,也可以手动插入少量的测试数据。本文使用手动插入数据的方法,脚本如下。
查看数据是否插入成功。
新建一个临时查询作业。
具体操作,请参见临时查询。
输入如下SQL语句,单击运行
在页面下方,单击运行记录,再单击操作列下的详情。
在运维中心,单击作业运行结果。