用了Elasticsearch,一口气上5T
learning to rank

learning to rank

Day 19 - 通过点击反馈优化es搜索结果排序

Adventlaigood 发表了文章 • 1 个评论 • 6847 次浏览 • 2018-12-19 00:15 • 来自相关话题

      相信不少人都把es当做一个主要的搜索引擎来使用,但是对于搜索结果之后的点击反馈,es没有很好的方案。比如说用户搜索了某些关键词,点击了某些结果,而这些结果并不是排在最前面的,但确实是用户最想要的。那有没有什么方法可以使它们排在前面呢?一种简单的做法就是就是离线统计文档的点击率,然后在排序时根据这个点击率进行加权,但这样笼统的算法不一定适合所有情况。现在就来简单介绍下learning to rank,翻译过来就是学习排序,可以根据点击日志里面的记录,来反向影响搜索结果的排序。刚好这个库也有es的插件,下面以这个插件的官方demo来解释下如何使用。 demo的下载地址如下,都是python脚本,环境需求:python3+,es https://github.com/o19s/elasti ... /demo 1.准备数据 python prepare.py 下载RankLib.jar (用来训练模型) 和tmdb.json (测试数据集,tmdb的电影数据) 2.导测试数据入es python index_ml_tmdb.py 3.训练模型 python train.py 训练脚本很简单,但是脚本里面有丰富的实现,下面介绍下主要方法。 load_features(FEATURE_SET_NAME) 这个是读取特征信息,demo定义了两个特征,分别在1.json
{
    "query": {
        "match": {
            "title": "{{keywords}}"
        }
    }
}
和2.json
{
    "query": {
        "match": {
            "overview": "{{keywords}}"
        }
    }
}
1就是查title,2就是查overview,生成训练数据时就是需要根据特征的查询语法,去es里面匹配相关得分作为特征分数。
movieJudgments = judgments_by_qid(judgments_from_file(filename=JUDGMENTS_FILE))
读取生成训练数据的原始数据,官方称其为决策列表(Judgment list),第一列是数值为0-4的权重,数值越大,相关性越高。回到我们最初的需求就是越多人点击的文档,那么这个权重就越大。第二列是queryid,同次查询结果中的queryid一样,第三列是文档id,这里就是电影id,第四列是文档标题,这里就是电影名。 4   qid:1 #    7555   Rambo 3  qid:1 #    1370   Rambo III 3  qid:1 #    1369   Rambo: First Blood Part II 3  qid:1 #    1368   First Blood 0  qid:1 #    136278 Blood 4  qid:2 #    1366   Rocky 3  qid:2 #    1246   Rocky Balboa 3  qid:2 #    60375  Rocky VI 3  qid:2 #    1371   Rocky III 3  qid:2 #    1375   Rocky V
log_features(es, judgments_dict=movieJudgments, search_index=INDEX_NAME)
build_features_judgments_file(movieJudgments, filename=JUDGMENTS_FILE_FEATURES)
之后就是生成特征集,就是把上面的每条训练数据根据特征查询语句扔进es里面进行查询,把得分放到1和2特征后面,如:下面数据第一条中的,1:12.318446就表示1特征的分数,2:10.573845表示2特征的分数,然后把特征集写到文件。 生成完的特征集如下: 4   qid:1  1:12.318446    2:10.573845 # 7555 rambo 3  qid:1  1:10.357836    2:11.950331 # 1370 rambo 3  qid:1  1:7.0104666    2:11.220029 # 1369 rambo 3  qid:1  1:0.0  2:11.220029 # 1368 rambo 0  qid:1  1:0.0  2:0.0 # 136278 rambo 4  qid:2  1:10.686367    2:8.814796 # 1366  rocky 3  qid:2  1:8.985519 2:9.984467 # 1246  rocky 3  qid:2  1:8.985519 2:8.067647 # 60375 rocky 3  qid:2  1:8.985519 2:5.6604943 # 1371 rocky 3  qid:2  1:8.985519 2:7.3007236 # 1375 rocky 特征集出来后就是训练了,demo提供10总不同的算法,训练好之后把结果传到es提供服务
for modelType in [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]:
    # 0, MART
    # 1, RankNet
    # 2, RankBoost
    # 3, AdaRank
    # 4, coord Ascent
    # 6, LambdaMART
    # 7, ListNET
    # 8, Random Forests
    # 9, Linear Regression
    Logger.logger.info("*** Training %s " % modelType)
    train_model(judgments_with_features_file=JUDGMENTS_FILE_FEATURES, model_output='model.txt',
                which_model=modelType)
    save_model(script_name="test_%s" % modelType, feature_set=FEATURE_SET_NAME,       model_fname='model.txt')
4.最后搜索数据 python search.py Rambo 搜索时主要用到了es里面的rescore特性,就是对前面topn条记录根据模型进行再排序,查询dsl如下:
{
  "query": {
      "multi_match": {
          "query": "Rambo",
          "fields": ["title", "overview"]
       }
   },
  "rescore": {
      "query": {
        "rescore_query": {
            "sltr": {
                "params": {
                    "keywords": "Rambo"
                },
                "model": "test_1",
            }
         }
      }
   }
}
得到结果 Rambo Rambo III Rambo: First Blood Part II First Blood In the Line of Duty: The F.B.I. Murders Son of Rambow Spud 当然这个是最简单的一个例子,深入研究可以参考官方文档,很详细:https://elasticsearch-learning ... test/  

Day 19 - 通过点击反馈优化es搜索结果排序

Adventlaigood 发表了文章 • 1 个评论 • 6847 次浏览 • 2018-12-19 00:15 • 来自相关话题

      相信不少人都把es当做一个主要的搜索引擎来使用,但是对于搜索结果之后的点击反馈,es没有很好的方案。比如说用户搜索了某些关键词,点击了某些结果,而这些结果并不是排在最前面的,但确实是用户最想要的。那有没有什么方法可以使它们排在前面呢?一种简单的做法就是就是离线统计文档的点击率,然后在排序时根据这个点击率进行加权,但这样笼统的算法不一定适合所有情况。现在就来简单介绍下learning to rank,翻译过来就是学习排序,可以根据点击日志里面的记录,来反向影响搜索结果的排序。刚好这个库也有es的插件,下面以这个插件的官方demo来解释下如何使用。 demo的下载地址如下,都是python脚本,环境需求:python3+,es https://github.com/o19s/elasti ... /demo 1.准备数据 python prepare.py 下载RankLib.jar (用来训练模型) 和tmdb.json (测试数据集,tmdb的电影数据) 2.导测试数据入es python index_ml_tmdb.py 3.训练模型 python train.py 训练脚本很简单,但是脚本里面有丰富的实现,下面介绍下主要方法。 load_features(FEATURE_SET_NAME) 这个是读取特征信息,demo定义了两个特征,分别在1.json
{
    "query": {
        "match": {
            "title": "{{keywords}}"
        }
    }
}
和2.json
{
    "query": {
        "match": {
            "overview": "{{keywords}}"
        }
    }
}
1就是查title,2就是查overview,生成训练数据时就是需要根据特征的查询语法,去es里面匹配相关得分作为特征分数。
movieJudgments = judgments_by_qid(judgments_from_file(filename=JUDGMENTS_FILE))
读取生成训练数据的原始数据,官方称其为决策列表(Judgment list),第一列是数值为0-4的权重,数值越大,相关性越高。回到我们最初的需求就是越多人点击的文档,那么这个权重就越大。第二列是queryid,同次查询结果中的queryid一样,第三列是文档id,这里就是电影id,第四列是文档标题,这里就是电影名。 4   qid:1 #    7555   Rambo 3  qid:1 #    1370   Rambo III 3  qid:1 #    1369   Rambo: First Blood Part II 3  qid:1 #    1368   First Blood 0  qid:1 #    136278 Blood 4  qid:2 #    1366   Rocky 3  qid:2 #    1246   Rocky Balboa 3  qid:2 #    60375  Rocky VI 3  qid:2 #    1371   Rocky III 3  qid:2 #    1375   Rocky V
log_features(es, judgments_dict=movieJudgments, search_index=INDEX_NAME)
build_features_judgments_file(movieJudgments, filename=JUDGMENTS_FILE_FEATURES)
之后就是生成特征集,就是把上面的每条训练数据根据特征查询语句扔进es里面进行查询,把得分放到1和2特征后面,如:下面数据第一条中的,1:12.318446就表示1特征的分数,2:10.573845表示2特征的分数,然后把特征集写到文件。 生成完的特征集如下: 4   qid:1  1:12.318446    2:10.573845 # 7555 rambo 3  qid:1  1:10.357836    2:11.950331 # 1370 rambo 3  qid:1  1:7.0104666    2:11.220029 # 1369 rambo 3  qid:1  1:0.0  2:11.220029 # 1368 rambo 0  qid:1  1:0.0  2:0.0 # 136278 rambo 4  qid:2  1:10.686367    2:8.814796 # 1366  rocky 3  qid:2  1:8.985519 2:9.984467 # 1246  rocky 3  qid:2  1:8.985519 2:8.067647 # 60375 rocky 3  qid:2  1:8.985519 2:5.6604943 # 1371 rocky 3  qid:2  1:8.985519 2:7.3007236 # 1375 rocky 特征集出来后就是训练了,demo提供10总不同的算法,训练好之后把结果传到es提供服务
for modelType in [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]:
    # 0, MART
    # 1, RankNet
    # 2, RankBoost
    # 3, AdaRank
    # 4, coord Ascent
    # 6, LambdaMART
    # 7, ListNET
    # 8, Random Forests
    # 9, Linear Regression
    Logger.logger.info("*** Training %s " % modelType)
    train_model(judgments_with_features_file=JUDGMENTS_FILE_FEATURES, model_output='model.txt',
                which_model=modelType)
    save_model(script_name="test_%s" % modelType, feature_set=FEATURE_SET_NAME,       model_fname='model.txt')
4.最后搜索数据 python search.py Rambo 搜索时主要用到了es里面的rescore特性,就是对前面topn条记录根据模型进行再排序,查询dsl如下:
{
  "query": {
      "multi_match": {
          "query": "Rambo",
          "fields": ["title", "overview"]
       }
   },
  "rescore": {
      "query": {
        "rescore_query": {
            "sltr": {
                "params": {
                    "keywords": "Rambo"
                },
                "model": "test_1",
            }
         }
      }
   }
}
得到结果 Rambo Rambo III Rambo: First Blood Part II First Blood In the Line of Duty: The F.B.I. Murders Son of Rambow Spud 当然这个是最简单的一个例子,深入研究可以参考官方文档,很详细:https://elasticsearch-learning ... test/