各位大神好,谢谢查看我的问题,这个流程图里面有二个问题 我不知道如何解决。
1. 如何用 官网推荐的 elasticsearch-hdfs 搭建 分布式文件系统?
2. 如何 当我的开关开启的时候,就往elasticsearch-hdfs 分布式文件系统里面写入文件?
3. elasticsearch 如何 从 elasticsearch-hdfs 里面取到文件信息和内容(文件几乎是 office 文件)实现全文检索?(看了github 里面的 elasticsearch-hadoop 可以链接 hadoop与elasticsearch,但是不知道怎么用,(? 我是不是有点儿笨,各位可别笑话我哦!))
3 个回复
rochy - rochy_he
赞同来自:
从楼主叙述可知,楼主注意的需求是存储 Office 文件(办公文件),并且希望能够通过 ES 进行全文检索。
楼主可以将文件本身,存储到 HDFS 上,这个有多种方式:HDFS 的 Java API 或者其 HttpFS 的 Restful API 都可以实现;
在存储时你需要对办公文件进行解析,得到文件中的内容还有文件的一些属性(标题、作者、日期、大小、路径)等信息;
对于办公文件内容和属性的解析你可以使用 Tika 来实现,
将上述信息解析好之后,调用 ES 的 API 将上述信息索引到具体的索引即可
最后就可以使用 ES 进行全文搜索,下载的时候直接从 HDFS 下载即可。
knownsec - 大数据方向研究
赞同来自:
但是又存在1个问题。
1. 如何在 HDFS分布式文件系统每个节点上放置 一个我的 爬虫文件解析程序。
laoyang360 - 《一本书讲透Elasticsearch》作者,Elastic认证工程师 [死磕Elasitcsearch]知识星球地址:http://t.cn/RmwM3N9;微信公众号:铭毅天下; 博客:https://elastic.blog.csdn.net
赞同来自: