【faiss】使用的一点总结

本文主要是介绍【faiss】使用的一点总结，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1，支持两种相似性计算方法：L2距离（即欧式距离）和点乘（归一化的向量点乘即cosine相似度）；

2，按照是否编码压缩数据可以分为两类算法，使用压缩的算法可以在单台机器上处理十亿级别的向量规模；

3，并非线程安全的——不支持并行添加向量或搜索与添加的并行；仅在CPU模式下支持并行搜索；

4，只有继承了IndexIVF 的算法才支持向量的 remove() 操作，但由于是连续存储，remove的时间复杂度是O(n)，建议另外维护一个列表记录被删除的或尚存的向量；

5，faiss 针对批量搜索做了优化；

6，IndexPQ, IndexIVFFlat, IndexIVFPQ, IndexIVFPQR 需要训练；

7，不支持重新训练，建议新建一个索引；

8，只接受 32-bit 浮点类型的输入数据；

9，使用 index = faiss.index_factory(dim, "PCA32,IVF100,PQ8")
这种形式创建索引更灵活，此处类型参数可解释为：使用PCA降维将原始向量降至32维，使用 IVF 建立索引，子list（即bucket 分桶）个数为100，使用 Product Quantizer (乘积量化) 将每个向量压缩编码成 8 字节；等价于

num_list = 64 dim = 64 bytes_per_vector = 8 bits_per_sub_vector = 8 quantizer= faiss.IndexFlatL2(dim) index = faiss.IndexIVFPQ(quantizer, dim, num_list, bytes_per_vector, bits_per_sub_vector)

10，索引类型的选择

* 如果需要精确的搜索结果，不要降维、不要量化，使用 Flat，同时，使用Flat 意味着数据不会被压缩，将占用同等大小的内存；
* 如果内存很紧张，可以使用 PCA 降维、PQ 量化编码，来减少内存占用，最终占用的内存大小约等于 <降维后的向量维度>
* <量化后的每个向量的字节数> * <向量个数>；
如果量化编码后的字节数大于64，推荐使用SQx 替换PQx，准确度相同但速度会更快；为了便于量化编码，可以使用 OPQx_y 先对向量做线性变换，y
必须是编码后字节数x的倍数，但最好小于维度dim和4*x；
* 如果总向量个数 N 小于 1百万，推荐使用 IVFx ，x 的选值介于 4*sqrt(N) 和 16*sqrt(N)
之间，训练数据的大小至少要是x的30倍；如果总向量个数 N 大于 1百万、小于 1千万，推荐使用 IMI2x10，实际内部聚类个数是 2 ^ (2 *10)，将需要64 * 2 ^ 10 个向量参与训练；如果总向量个数 N 大于 1千万、小于 1亿，推荐使用 IMI2x12；如果总向量个数 N 大于1亿、小于 10亿，推荐使用 IMI2x14；IMI方法不支持GPU；* IndexIVF 天生支持 add_with_ids 方法，对于不支持 add_with_ids方法的类型，可以使用IndexIDMap 辅助* index = faiss.IndexFlatL2(xb.shape[1]) ids = np.arange(xb.shape[0])
index.add_with_ids(xb, ids) # this will crash, because IndexFlatL2 does not support add_with_ids index2 = faiss.IndexIDMap(index) index2.add_with_ids(xb, ids) # works, the vectors are stored in the underlying index

4，常见问题：

暴力搜索比较慢，解决方法：
export OMP_WAIT_POLICY=PASSIVE

这篇关于【faiss】使用的一点总结的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！