看,灰机...

Elasticsearch:Hadoop 大数据集成 (Hadoop => Elasticsearch)

Elasticsearchliuxg 发表了文章 • 0 个评论 • 1998 次浏览 • 2022-10-09 07:59 • 来自相关话题

在本文章中,我们将学习如何使用 Elasticsearch Hadoop 处理大量数据。 对于我们的练习,我们将使用一个简单的 Apache access 日志来表示我们的 “大数据”。 我们将学习如何编写 MapReduce 作业以使用 Hadoop 摄取文件并将其索引到 Elasticsearch 中。在我们今天的练习中,我们将使用如下的架构来搭建我们的系统:

hadoop1.png


hadoop.png

 
如上所示,我们在左边的 macOS 中安装 Elasticsearch 及 Kibana,而在 Ubuntu OS 中安装 Hadoop。我们将以最新的 Elastic Stack 8.4.2 来进行展示。

Hadoop 是什么?

当我们需要收集、处理/转换和/或存储数千 GB、数千 TB 甚至更多的数据时,Hadoop 可能是完成这项工作的合适工具。它是从头开始构建的,考虑到这样的想法:
  • 一次使用多台计算机(形成一个集群),以便它可以并行处理数据,从而更快地完成工作。我们可以这样想。如果一台服务器需要处理 100 TB 的数据,它可能会在 500 小时内完成。但是如果我们有 100 台服务器,每台只能取一部分数据,例如 server1 可以取第一个 TB,server2 可以取第二个 TB,以此类推。现在他们每个人都只有 1 TB 的数据要处理,而且他们都可以同时处理自己的数据部分。这样,工作可以在 5 小时内完成,而不是 500 小时。当然,这是理论上的和想象的,因为在实践中我们不会减少 100 倍所需的时间,但我们可以非常接近如果条件理想。
  • 在需要时可以很容易地调整计算能力。有更多的数据要处理,而问题要复杂得多?将更多计算机添加到集群。从某种意义上说,这就像在超级计算机上增加了更多的 CPU 内核。
  • 数据不断增长,因此 Hadoop 也必须能够轻松灵活地扩展其存储容量,以满足需求。我们添加到集群的每台计算机都会扩展 Hadoop 分布式文件系统 (HDFS) 的可用总存储空间。
  • 与其他软件不同,它不仅会在硬件故障发生时尝试从硬件故障中恢复。设计理念实际上假设某些硬件肯定会失败。当有数千台计算机并行工作时,可以保证某处某处会不时出现故障。因此,默认情况下,Hadoop 创建数据块的副本并将它们分布在单独的硬件上,因此当偶尔的服务器起火或硬盘或 SSD 死机时,不会丢失任何内容。

总而言之,Hadoop 非常擅长摄取和处理大量信息。它将数据分布在集群中可用的多个节点上,并使用 MapReduce 编程模型在多台机器上同时处理数据(并行处理)。

但这听起来可能有点类似于 Elasticsearch 数据摄取工具所做的事情。尽管它们是为处理相当不同的场景而设计的,但它们有时可能会有些重叠。那么我们为什么以及何时使用其中一个而不是另一个呢?

Hadoop vs Logstash/Elasticsearch

首先,我们不应该考虑哪个比哪个更好。 每个人都擅长为其创造的工作。 每个都有优点和缺点。

为了尝试给你绘制一个图片并让你了解我们何时使用其中一个,让我们考虑以下场景:
  • 当我们需要从数十亿个网站中提取数据时,就像谷歌这样的搜索引擎所做的那样,我们会发现像 Elasticsearch 及 Hadoop 这样的工具非常有用和高效。
  • 当我们需要以这样一种方式存储数据并对其进行索引以便以后可以快速有效地搜索时,我们会发现像 Elasticsearch 这样的东西非常有用。
  • 最后,当我们想要收集实时数据时,例如来自互联网上许多交易所的美元/欧元价格,我们会发现像 Logstash 这样的工具非常适合这项工作。

 
更多阅读,请参阅 https://elasticstack.blog.csdn ... 97392

另类的ES的快照知识

回复

ElasticsearchCharele 回复了问题 • 2 人关注 • 2 个回复 • 2517 次浏览 • 2022-10-07 20:36 • 来自相关话题

elasticsearch能否同时备份多个快照

Elasticsearchshwtz 回复了问题 • 2 人关注 • 1 个回复 • 1880 次浏览 • 2023-09-07 18:29 • 来自相关话题

这么设置会有什么问题呢???

回复

ElasticsearchCharele 发起了问题 • 2 人关注 • 0 个回复 • 1919 次浏览 • 2022-10-01 13:30 • 来自相关话题

【重启通知】 2022 Elastic 中国开发者大会定于2022年10月29日,深圳好日子皇冠假日酒店,不见不散!

资讯动态liaosy 发表了文章 • 0 个评论 • 2299 次浏览 • 2022-09-30 18:30 • 来自相关话题

banner_guide.png

亲爱的各位赞助商、合作伙伴、嘉宾和参会朋友:

    很高兴通知大家,经 Elastic 中国开发者大会组委会研究决定,由于疫情原因延期举办的 2022 Elastic 中国开发者大会将于2022年10月29日在深圳好日子皇冠假日酒店重启举办。

    关于会议信息也做一个同步:

    一、会议场地变化:原会议举办场地——深圳圣淘沙酒店,被深圳政府做为深圳市疫情防控指挥中心,酒店工作人员通知2022年全年都无法提供任何场地举办会议。组委会得知情况后,为了大会及时召开,立即做好预案,在不考虑成本的情况下,将会议场地变更为——深圳好日子皇冠假日酒店,会议的整体环境、场地、展厅、茶歇、用餐等都做了全面的升级。

    二、关于讲师和议题:少部分讲师和议题有变化,组委会近期会与讲师沟通确认是否需要更换新的演讲议题。

    这次的 Elastic 中国开发者大会虽然遇到了很多的困难与波折,但因为您们的理解和支持,一直鼓励着我们,给了我们信心与动力,我们会本着办好中国开发者大会的初心继续前行,再次感谢大家的大力支持!

    注:
  1. 目前大会报名购票通道已重新开启,欢迎有兴趣的朋友报名参会,已经报名参会者无需再次报名。报名链接:https://www.bagevent.com/event/7899116
  2. 如需要加入本次大会微信交流群,请加微信(lsy965145175)拉群。
  3. 更多大会资讯请关注官网:https://conf.elasticsearch.cn

 
 

Boolean查询中的执行顺序问题

ElasticsearchFFFrp 回复了问题 • 2 人关注 • 1 个回复 • 1795 次浏览 • 2022-10-09 19:37 • 来自相关话题

社区日报 第1508期 (2022-09-29)

社区日报Se7en 发表了文章 • 0 个评论 • 1491 次浏览 • 2022-09-29 16:26 • 来自相关话题

1.使用 Elasticsearch 构建搜索 API(需要梯子)
https://medium.com/%40andre.lu ... a06b7
2.重磅 | 死磕 Elasticsearch 8.X 方法论认知清单(2022年国庆更新版)
https://mp.weixin.qq.com/s/OrHmVTfY3T9R76V5wSsmYA
3.一文搞懂 Elasticsearch 监控
https://mp.weixin.qq.com/s/IcouvjxozuoYZYRdsdHWTw

编辑:Se7en
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

复展通知 | 2022国际开源节新档期定于11月5-7日,福田会展,不见不散!

活动OSTech 发表了文章 • 0 个评论 • 2342 次浏览 • 2022-09-29 15:22 • 来自相关话题


图片3.png

致尊敬的各参展商、合作单位、媒体及观众朋友:
      
      很高兴通知大家,经过不断地协调和沟通,深圳国际电子展暨嵌入式系统展及2022国际开源节共同商定,展会将于11月5-7日复展,地点为深圳会展中心(福田)1/9号馆。

      感谢这段时间大家的理解以及默默的支持!花已开,鹏城不见不散!
 
 


2022国际开源节(IOSF)由OSTech联合中国信息通信研究院、Linux基金会亚太区发起策划,在ELEXCON深圳国际电子展暨嵌入式系统展落地,并聚集了包括中国科学院软件研究所、CNCF、LF AI & Data、LFOSSA、LF Edge、O3DF、OpenSSF、Hyperledger基金会等国际一流开源基金会和机构,GDG、开源中国等全球知名开发者社区,以及上海开源信息技术协会等权威开源机构的共建支持。
国际开源节旨在汇聚全球开源技术与项目,融合国际文化、开源社区生态和开源产业发展,构建“共创共赢”的开源文化,打造中国开源新生态。
2022国际开源节(IOSF)将同期举办前沿技术峰会,主题涵盖“国际开源教育与人才培养论坛”、“OpenSSF开源安全中国峰会”、“Kubernetes on AI & Edge ”、“Hyperledger超级账本峰会” 、“CNCF云原生论坛”、“开源投融资论坛 ”、“高校学术开源峰会”、“O3DF元宇宙论坛”,敬请期待!




 


合作联系

参展合作(微信同步)
Tony,13713437040;
Friday,17612060999;
宣传合作(微信同步)
Cindy,13553827402;
Katharine,13512772116;


社区日报 第1507期 (2022-09-28)

社区日报kin122 发表了文章 • 0 个评论 • 1320 次浏览 • 2022-09-28 15:19 • 来自相关话题

1.怎么去毁掉 ES 的性能-2(需要梯子)
https://blog.allegro.tech/2021 ... .html
2.利用kafka去部署es双数据中心(需要梯子)
https://medium.com/rahasak/ela ... 95e5e
3.Elasticsearch:词分析中的 Normalizer 的使用
https://blog.csdn.net/UbuntuTo ... 89051

编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

如何用纯Java代码生成证书?

回复

ElasticsearchCharele 发起了问题 • 1 人关注 • 0 个回复 • 2024 次浏览 • 2022-09-27 23:10 • 来自相关话题

ES7.17版本terms查询性能问题

Elasticsearchzmc 发表了文章 • 3 个评论 • 3418 次浏览 • 2022-09-27 18:53 • 来自相关话题

背景

1.对于7版本(大版本)集群希望只维护一个版本,最终选择7.17,对同大版本的7.5版本集群进行升级

2.根据官方描述,_id放到堆外性能损失非常小可以忽略,且对BKD进行了优化

3.升级完成,一段时间之后,收到用户报障

1-cpu.png



2-time.png



4.抽样检查了下部分升级的集群,其中部分受到影响,部分不受影响。且每个集群内存均有一定优化(预期内)

调查&分析

1.发现is_deleted文档特别多,怀疑是7.17版本对于碎片过于敏感。做forcemerge,没什么效果。

2.GET _nodes/hot_threads 查看耗时部分,结果展示笼统,没得到关键信息。

3.给语句加上profile,查看耗时部分。
<br /> GET index-v1/_search<br /> {"profile":"true","query":{"bool":{"filter":[{"term":{"xid":{"value":"11111111","boost":1.0}}},{"terms":{"status":[2,3,4],"boost":1.0}},{"terms":{"platform":["aaa","bbb"],"boost":1.0}},{"terms":{"pId":[1,2],"boost":1.0}}],"adjust_pure_negative":true,"boost":1.0}},"sort":[{"time":{"order":"desc"}}]}<br />

从脱敏的简化结果中可以看出来,主要是 status、pId 字段耗时高,这两个字段都是integer类型,并且使用了terms查询。
<br /> {<br /> "took": 554,<br /> "timed_out": false,<br /> "_shards": {<br /> "total": 3,<br /> "successful": 3,<br /> "skipped": 0,<br /> "failed": 0<br /> },<br /> "hits": {<br /> "total": {<br /> "value": 5,<br /> "relation": "eq"<br /> },<br /> "max_score": null,<br /> "hits": [<br /> ...<br /> ]<br /> },<br /> "profile": {<br /> "shards": [<br /> {<br /> "id": "[APxxxxxxxxxxxxxxQ][index-v1][0]",<br /> "searches": [<br /> {<br /> "query": [<br /> {<br /> "type": "BooleanQuery",<br /> "description": "#xid:111111111 #status:{2 3 4} #ConstantScore(platform:aaa platform:bbb) #pId:{1 2}",<br /> "time_in_nanos": 415205306,<br /> "breakdown": {<br /> ...<br /> "build_scorer": 415028271<br /> },<br /> "children": [<br /> {<br /> "type": "TermQuery",<br /> "description": "xid:111111111",<br /> "time_in_nanos": 102656,<br /> "breakdown": {<br /> .....<br /> "build_scorer": 86264<br /> }<br /> },<br /> {<br /> "type": "PointInSetQuery",<br /> "description": "status:{2 3 4}",<br /> "time_in_nanos": 220394978,<br /> "breakdown": {<br /> ....<br /> "build_scorer": 220385119<br /> }<br /> },<br /> {<br /> "type": "ConstantScoreQuery",<br /> "description": "ConstantScore(platform:aaa platform:bbb)",<br /> "time_in_nanos": 341845,<br /> "breakdown": {<br /> .....<br /> "build_scorer": 282277<br /> },<br /> "children": [<br /> {<br /> "type": "BooleanQuery",<br /> "description": "platform:aaa platform:bbb",<br /> "time_in_nanos": 329042,<br /> "breakdown": {<br /> .....<br /> "build_scorer": 277752<br /> },<br /> "children": [<br /> {<br /> "type": "TermQuery",<br /> "description": "platform:aaa",<br /> "time_in_nanos": 62446,<br /> "breakdown": {<br /> .....<br /> "build_scorer": 37931<br /> }<br /> },<br /> {<br /> "type": "TermQuery",<br /> "description": "platform:bbb",<br /> "time_in_nanos": 15093,<br /> "breakdown": {<br /> .....<br /> "build_scorer": 6981<br /> }<br /> }<br /> ]<br /> }<br /> ]<br /> },<br /> {<br /> "type": "PointInSetQuery",<br /> "description": "pId:{1 2}",<br /> "time_in_nanos": 194164297,<br /> "breakdown": {<br /> ....<br /> "build_scorer": 194160452<br /> }<br /> }<br /> ]<br /> }<br /> ],<br /> "rewrite_time": 40044,<br /> "collector": [<br /> {<br /> "name": "SimpleFieldCollector",<br /> "reason": "search_top_hits",<br /> "time_in_nanos": 144012<br /> }<br /> ]<br /> }<br /> ]<br />

4.单个的profile无法说明问题,进一步排查:使用arthas工具获取一段时间内的火焰图

3-火焰图.png



可以看到主要就是BKD数据结构占用的CPU。

5.参考官方论坛相似问题:https://discuss.elastic.co/t/v ... 152/3

6.integer类型的terms查询性能较差,看起来官方描述的BKD相关优化指的是range

7.测试验证,将字段改成keyword,查看结果,CPU查询耗时恢复到正常范围

4-结果.png



5-结果-time.png




es8 java api深分页

ElasticsearchCharele 回复了问题 • 2 人关注 • 1 个回复 • 1535 次浏览 • 2022-09-27 20:45 • 来自相关话题

社区日报 第1506期 (2022-09-27)

社区日报God_lockin 发表了文章 • 0 个评论 • 1418 次浏览 • 2022-09-27 10:44 • 来自相关话题


1. 构建搜索服务?SpringBoot和ES是绝配哦(需要梯子)
https://medium.com/javarevisit ... 0b41f
2. ASP.NET也可以拿ES处理日志吗?yes!(需要梯子)
https://medium.com/%40technica ... 9eaa9
3. Elastic agent,一站式日志解决方案,你值得拥有(需要梯子)
https://medium.zenika.com/how- ... 5aec7

编辑:斯蒂文
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
 

社区日报 第1505期 (2022-09-26)

社区日报yuebancanghai 发表了文章 • 0 个评论 • 1272 次浏览 • 2022-09-26 14:35 • 来自相关话题

1. 快手搜索在向量检索方向的探索和实践
   https://www.6aiq.com/article/1663498700156

2. 美团大众点评搜索相关性技术探索与实践
   https://www.6aiq.com/article/1657116010069

3. Elasticsearch 汉字补全和拼写纠错
   https://blog.51cto.com/u_14693305/5018534

编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

关于ES安全的一些问题探讨

回复

ElasticsearchCharele 回复了问题 • 1 人关注 • 1 个回复 • 2020 次浏览 • 2022-09-24 22:12 • 来自相关话题