【TiDBer 唠嗑茶话会 115】TiDB 支持向量功能，你最想拿它做什么？

魔人逗逗 · 2024 年4 月 19 日 17:38

感觉主要是图搜，或者结合 embedding 可以做上下文语义搜索这种（embedding其实就是把文本转成多维数组，转的过程中会考虑到前后字符之间的关系，所以向量化的数据会隐含上下文）。

之前这方面感觉主要是多媒体搜索相关，例如图搜——把图片转成多维向量，即浮点数组，然后查询图片相似度；
大模型火了之后，结合 embedding + 知识库的上下文向量搜索的场景多了一些，例如 RAG

单就 embedding + 知识库的场景说，现在很多像dify这种如果做基于知识库的场景，会支持「混合检索」就是关键字全文检索+向量检索，个人感觉各有优劣吧：比如 ① 自然语言提问的时候命中知识库，全文检索命中的概率小但一旦命中是精准的；向量检索命中概率大但相对不算精准（和选择的向量检索索引还有度量距离也会有关系）② 全文检索不太好结合上下文整句话的整体语义，支持match单个单词或者文字会有问题；但在对文本做向量化的时候，算法一般会结合整句或者整段的上下文语义，所以计算后的向量会包含上下文信息

再暴言一些就是，任何形式的数据都可以通过算法转换成向量，从而进行向量检索（ANN）。最重要的2步其实就是 向量化算法 和 向量检索算法(索引结构+距离度量)

以上都是个人对向量功能的理解，和 TiDB 的不一定相同哈