首页 存档 技术 查看内容

【01-21】电商项目站内搜索以及分词相关的实现方案

2018-3-30 13:00 |来自: 互联网 599 0

摘要: 【今日话题】 电商项目站内搜索以及分词相关的实现方案 - 刺客 1. 使用搜索引擎,sphinx,xunsearch 等结合mysql生成需要关键字索引 - 杜世伟 2. 问: @杜世伟 为啥要结合这三者呢? - 吴延毅 回: @吴延毅,sphinx, ...

【今日话题】

电商项目站内搜索以及分词相关的实现方案 - 刺客

1. 使用搜索引擎,sphinx,xunsearch 等结合mysql生成需要关键字索引 - 杜世伟

2. 问: @杜世伟 为啥要结合这三者呢? - 吴延毅

回: @吴延毅,sphinx,xunsearch,lucence是三种不同的搜索引擎,不过lucence这个我没有用过的,那两个我都用过,至于为什么选择它们,是因为建立索引的速度比较快,每次操作的时候如删除更改等可以使用增量索引实现,这样数据大了不必要每次更新全部索引,对中文支持还是不错的

具体使用哪个可以往上搜搜比较一下,每个都是既然能够存在必定有它存在的意义 - 杜世伟

3. 我们做的方法就是扔到lucene里面去 然后靠编辑配置搜索关键词 我们的电商种类少 只有几千 - 仲晨

4. 分词。。。这东西还能自已做么,很费力的啊,什么隐马尔可夫模型

直接用别人开源训练好的模型 - smargo

5. 一般也就是自己配置一些适合业务的补充词表 放到分词器里面去 - 仲晨

6. 开源的分词包的确需要自己补充相关的业务词汇 - 耿安鹏

7. 我猜es搜索 考虑类目品牌和热度新度 - timedcy

8. Es更新比较容易

一种是所有更新或新增操作都写一个任务队列,监控队列并操作es

一种是所有操作都更新操作时间字段,定期执行脚本,根据更新时间来更新数据

Es还算智能,sphinx比较麻烦,必须按日期切割不同索引,这样才能减少重建索引时间。比如一个月的索引分3段,更新数据时,先找出数据属于哪一段,重建那一段的索引即可 - tiyee

9. Sphinx更新要重建整个索引,插入可以增量索引

据说有个实时索引,但是没用过

当初采用sphinx的时候,把索引才拆分了,更新时重建那一小段即可,避免全量重建

但是还是不如es方便,所以换es了 - tiyee

10. 电商搜索引擎的架构设计和性能优化 https://mp.weixin.qq.com/s?__biz=MzAxNjAzMTQyMA==

声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系 [邮箱地址] 删除

路过

雷人

握手

鲜花

鸡蛋

相关分类

返回顶部