lix7 最近的时间轴更新
lix7

lix7

V2EX 第 459033 号会员,加入于 2019-12-13 13:35:23 +08:00
今日活跃度排名 2896
lix7 最近回复了
2 天前
回复了 colinxt 创建的主题 Elasticsearch ES 新人请教大佬精确查询的问题
@colinxt #4 一个 property 可以有多个 field ,字段默认作为 ik field ,再加一个 field 配不同的分词器用于单字分词就行,一般看情况还可以加精准匹配 keyword 、拼音、前后缀啥的。
查询的时候可以用 name.ik ,name.ngram ,name.keyword, name.prefix, name.suffix, name.pinyin
3 天前
回复了 colinxt 创建的主题 Elasticsearch ES 新人请教大佬精确查询的问题
不考虑停用词的话,match_phrase
考虑停用词的话,可以加一个 property ,直接单字切分,然后在这个属性上做 match_phrase
没必要,重复造轮子了,没太理解这么搞得话你 es 里存的是啥东西。ES 已经把你说的做的七七八八了,包括 doc 分词、query 分词,而且中文分词质量也没啥问题,就算你真的要动分词,也是通过 es 分词插件的方式来搞,而不是外置一个服务。

索引前置的服务可以有,但作用一般是做 connector 增强,数据组装、清洗这类工作,分词还是要收敛到 ES 内。

召回前置的 NLP 部分大多是做 query 改写、扩召回的,分词一般不会放里面。

索引重建的话,ES 一个 reindex 就完事儿了,GB 级数据同集群索引重建也就是分钟级的事情,你的方案反而需要你自己手搓整个 ETL 重建流程,感觉得比 ES 慢一两个数量级。

业务复杂度不高时,只用粗排就行了,之后再加精排。一开始复杂度还是别太高比较好。
干过一次,是为了重写私有方法,把内部逻辑暴露。
15 天前
回复了 fields 创建的主题 美酒与美食 你们都喝什么啤酒
麒麟
16 天前
回复了 kirkcola 创建的主题 计算机 618 攒机,求指点
@kirkcola #7 zen4 有个开机慢和内存频率低的问题,在意的话,维持 14700K 倒也不是啥问题。御三家中端出货量大的板子一般都没问题,别买最丐的就行
17 天前
回复了 kirkcola 创建的主题 计算机 618 攒机,求指点
更进一步,换成 7800x3d 或 7700x 基本不会有可感知的性能区别,还能省几百。如果坚持 intel 就算了
17 天前
回复了 kirkcola 创建的主题 计算机 618 攒机,求指点
同楼上感慨,这板子有必要这么贵吗,想用得久的话也不可能长期锁频,7200 的内存也不挑板子,剩三千块钱加到显卡上升成丐版 4090D 比 CPU 和内存那点频率提升显著多了。
另外,长期用的话,水冷还是不如风冷省心,至少不用总担心老化漏水。换个双塔 140 默频足够了
25 天前
回复了 t202201 创建的主题 iPhone 是现在买 iPhone15Pro 还是等 16 出来?
居然都过去一年了...15 Pro 感觉还是挺好的,新一代到目前为止都没啥吸引人的爆料
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5255 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 06:53 · PVG 14:53 · LAX 23:53 · JFK 02:53
Developed with CodeLauncher
♥ Do have faith in what you're doing.