本人医学狗一枚,手中有300K本医学pdf待OCR,目前已可稳定生成1000本双层pdf/day。
正寻求快速定位原文,再现纸质书页面的平台。
类似产品使用过,但皆未支持正则表达式检索,目前从期刊中了解到Lucene可实现此效果,但是具体细节并未披露,希望有经验的大大能指教。
拜谢。
正寻求快速定位原文,再现纸质书页面的平台。
类似产品使用过,但皆未支持正则表达式检索,目前从期刊中了解到Lucene可实现此效果,但是具体细节并未披露,希望有经验的大大能指教。
拜谢。
3 个回复
kennywu76 - Wood
赞同来自: fazang
ES本身支持正则表达式检索 https://www.elastic.co/guide/e ... regex
dongne
赞同来自:
zqc0512 - andy zhou
赞同来自:
不过在kibana上面可以用中文,你存储的时候需要注意下格式
search city:"海口市"