132024.09

科技观察丨向量数据库,能承受期望之重吗?

2024.09.13


人工智能爆发后,特别是ChatGPT的崛起,带飞了其生态链的很多产品,其中处于重要的数据处理环节的

向量数据库也从幕后走向了台前,站在了风口浪尖上,那经过一年多的发展,向量数据库现在是一种怎样

的状态呢?


一、向量数据库的发展


向量数据库作为非线性数据库的一种,以向量空间为基础,是基于向量运算的数据库系统。它的核心是向量

存储和索引。十多年前,深度神经网络高速发展,对于非结构化和高维数据的处理需求日益增大,向量搜索

技术得到了进一步的发展和优化,向量数据库应运而生,随后Facebook开源了Faiss向量检索框架,2019年

以后,独立的向量数据库和基于Faiss等框架发展的向量数据库产品开始面世。此时的向量数据库主要用在

推荐算法、人脸识别、异常检测等,主要在垂直领域应用场景。


随着 ChatGPT的出现,向量数据库在机器学习和大模型预训练中有得天独厚的优势,在垂直领域可以作为

大模型的外挂知识库,提升大模型的AI能力。现在,向量数据库是大模型的必经之路。



二、向量数据库优点和不足


向量数据库有别于传统关系数据库,传统关系数据库如Oracle、MySQL,主要存储结构化数据,是二维结构,

以表格的形式结构化数据,查询结果精确。


而向量数据库是非关系型数据库的一种,存储和处理非结构化数据,将数据以向量形式存储,可实现向量数据

的相似度搜索、聚类、降维等操作。向量数据库方便处理高维度、高相似度、高并发的数据,适合机器学习。

AI大模型的产生,需要经历大量反复的训练和调试,但其中进行训练的数据,是多模态和大规模的,更适用于

向量数据库。


向量数据库另一个特点是易于扩展:向量数据库可以利用分布式、云计算、边缘计算等技术轻松地扩展到多个

节点,从而扩大数据处理规模,并提高向量数据的存储、管理和查询的稳定性。


向量数据库的不足在于事务处理能力比较弱、存储成本高、查询效率受向量维度影响、数据更新困难等方面。



三、发展趋势


2023年被称为向量数据库的元年,众多该领域的公司陆续获得多轮融资:

Pinecone:已宣布获得1亿美元的B轮融资,成功将融资规模进一步扩大。

Zilliz:完成了6000万美元的新一轮融资,使其B轮融资规模达到1.03亿美元,累计融资额达到1.13亿美元。

Weaviate:宣布获得5000万美元的B轮融资。

Vespa:获得了3100万美元的融资。

Chroma:获得了1800万美元的种子轮融资。

Qdrant:获得了750万美元的种子轮融资,后续又获得了额外的融资,使其总融资额达到980万美元。


但是,向量数据库也存在着不足,在人工智能的发展中,它能够承担起人们对它的期望之重吗?它的未来发展

趋势也引起了不同的看法:

1. 大模型能力提升最近长文本的处理也体现了这点,RAG和LLm深度融合之后,大模型在有足够的能力之后,

是不是不再需要向量数据库这个外挂了呢?


2.传统数据库也在不断地发展

集成向量功能也在预料之内,同时又有传统数据库的性能和精度,那么向量数据

库会不会只是一种功能,还能成为一个专有品类吗?


3. 技术的发展总会出人意料

也可能在将来有一种新的类型代替向量数据库了,毕竟向量归根结底只是一种数

据结构,更有效更方便的存储也在不断地探索中。


AI加速上升,和大模型深度结合,或许,向量数据库的发展趋势就是AI数据库。



四、小结


人工智能是个长跑,几十年来有多少风云急涌的技术被拍死在了沙滩上,大模型引爆了向量数据库,但处于

风头,城头变幻大王旗,风头过去能留下什么,让我们拭目以待。