【TiDBer 唠嗑茶话会 115】TiDB 支持向量功能,你最想拿它做什么?

感觉主要是图搜,或者结合 embedding 可以做上下文语义搜索这种(embedding其实就是把文本转成多维数组,转的过程中会考虑到前后字符之间的关系,所以向量化的数据会隐含上下文)。

之前这方面感觉主要是多媒体搜索相关,例如图搜——把图片转成多维向量,即浮点数组,然后查询图片相似度;
大模型火了之后,结合 embedding + 知识库的上下文向量搜索的场景多了一些,例如 RAG

单就 embedding + 知识库的场景说,现在很多像dify这种如果做基于知识库的场景,会支持「混合检索」就是关键字全文检索+向量检索,个人感觉各有优劣吧:比如 ① 自然语言提问的时候命中知识库,全文检索命中的概率小但一旦命中是精准的;向量检索命中概率大但相对不算精准(和选择的向量检索索引还有度量距离也会有关系)② 全文检索不太好结合上下文整句话的整体语义,支持match单个单词或者文字会有问题;但在对文本做向量化的时候,算法一般会结合整句或者整段的上下文语义,所以计算后的向量会包含上下文信息

再暴言一些就是,任何形式的数据都可以通过算法转换成向量,从而进行向量检索(ANN)。最重要的2步其实就是 向量化算法向量检索算法(索引结构+距离度量)

以上都是个人对向量功能的理解,和 TiDB 的不一定相同哈

2 个赞