• 从零实现一个向量数据库,需要做这些事情(科普版)

从零实现一个向量数据库,需要做这些事情(科普版)

2025-05-22 10:00:07 栏目:宝塔面板 28 阅读

在个人工作中、公司经营中,都会积累大量的非结构化数据:如图片、语音、文字、视频,我们希望计算机能理解它们的含义,并根据含义进行搜索。比如,找出所有外观类似的T恤,或者找到和这句话意思差不多的文章。这种基于相似度的搜索,是传统数据库的短板。

那么,AI是如何理解并处理这种“相似”概念的呢?这就引出了我们今天的主题:向量数据库,以及它背后的核心技术。

向量表示与Embedding

要让计算机理解“相似”,第一步是把现实世界的各种信息,转化成计算机能处理的数字形式。这个转化过程,在AI领域被称为Embedding(嵌入)或向量化。

简单来说,Embedding就是把图片、文字、音频等复杂的对象,映射成一个由数字组成的向量(Vector)。这个向量生活在一个高维的数学空间里,它的每一个维度(维度可以很高,从几十到几千不等)都捕捉了原始对象某个方面的特征。

以词向量(Word Embedding)为例,这是一个非常经典的例子。通过大规模文本数据的训练,我们可以把每一个词语转化为一个固定长度的数字向量。这些向量的神奇之处在于,它们捕捉了词语的语义信息。例如,通过计算,你可能会发现,在向量空间中,从“法国”到“巴黎”的“方向”和“距离”,与从“意大利”到“罗马”的“方向”和“距离”非常相似。

向量运算捕捉到了词语之间的关系,语义上越接近的词语,它们对应的向量在向量空间中的位置就越接近,也就是“距离”越近。而具有相似关系(如都是某个国家的首都)的词对,它们在向量空间中的相对位置关系也相似。

不仅是词语,图片、声音,甚至用户行为序列、分子结构等等,都可以通过相应的Embedding模型,转化为向量。这些向量,就成为了AI理解和衡量“相似”的基础。

相似度计算方法

既然相似的事物在向量空间中距离相近,那我们怎么量化这个距离或相似度呢?有几种常用的数学方法。

余弦相似度(Cosine Similarity) 通过计算两个向量夹角的余弦值来衡量相似度,夹角越小,余弦值越接近1,表明向量方向越一致,语义上也就越相似,这种方法更侧重于向量的方向匹配,常用于文本分析和推荐系统。欧氏距离(Euclidean Distance) 则计算两个向量在多维空间中的直线距离,距离越小,向量越接近,相似度越高,它同时考虑了向量的方向和大小,在图像识别等领域更为常见。此外,点积(Dot Product),或称内积,也是一种度量方式,当向量经过 L2 归一化后,点积的值与余弦相似度相等;在未归一化的情况下,点积则同时反映了向量的相似度以及它们的“强度”或“大小”。

选择哪种度量方式,取决于具体的应用场景和Embedding模型的特性。但核心思想是一致的:通过计算向量之间的数学距离或夹角,来量化它们代表的原始对象的相似程度。

大规模向量检索的挑战

现在我们有了大量的向量,也知道如何计算它们之间的相似度。假设我们有1亿张图片的向量,用户上传一张图片,我们想找出数据库里最相似的10张图。

最直观的方法是,把查询向量Q和数据库里的所有1亿个向量挨个计算相似度,然后排序取出最相似的10个。这被称为穷举搜索(Brute-force Search)或线性扫描。

但是,即使计算机计算速度再快,1亿次相似度计算的开销也是巨大的,这还不考虑向量维度很高时单次计算的复杂性(所谓的“维度灾难”)。对于需要毫秒级响应的在线应用(如实时推荐、即时搜索),这种方法是不可行的。

我们需要一种更高效的方法,能够在大规模向量数据集中快速找到与查询向量“足够相似”的向量,即使它不一定是理论上最近的那一个。这就引出了近似最近邻搜索(Approximate Nearest Neighbor Search, ANN)技术。

ANN算法的核心思想是:牺牲一定的精度,换取极高的检索速度。 它不像穷举搜索那样保证找到绝对最近的那个,而是在很短的时间内找到一个“足够近”的结果。在很多应用中(比如推荐系统,“足够像”的商品就够了,不一定非得是理论上最像的),这种近似是完全可以接受的。

主流ANN算法剖析

目前工业界广泛应用的算法主要有两类。

一类是基于图的索引(Graph-based Index),其中代表性算法是 HNSW(Hierarchical Navigable Small World)。

它通过构建一个分层的图结构来组织向量,图的不同层级连接着不同距离的邻居向量,层级越高,连接的距离越远。

搜索时,算法从图的顶层开始,通过贪婪地选择离查询向量更近的邻居来快速导航,然后逐层向下,直到精确定位。这种结构使得HNSW兼具高速度、高召回率,并且支持动态地添加或删除向量,是目前综合性能非常优秀的算法。

你可以将它类比为在一个城市地图上导航:先利用高速公路(高层)快速接近目的地,再转入主干道(中间层),最后进入小巷(底层)找到具体位置。

另一类是 基于倒排索引的方法(Inverted Index),以 IVF(Inverted File)为代表。

其原理类似于聚类,先将整个向量空间划分为若干个区域(或称簇、倒排桶),每个区域有一个中心向量。

向量插入时,被分配到离它最近的簇中。搜索时,只需计算查询向量与所有簇中心的距离,选取最近的少数几个簇,然后仅在这些选定的簇内部进行搜索,这通过大大缩小搜索范围而显著提升了速度。

IVF常与乘积量化(Product Quantization, PQ)技术结合形成 IVF-PQ,PQ通过压缩向量进一步减少存储和计算开销,使得IVF在处理超大规模数据时更为高效。

IVF的搜索过程就像在图书馆找书:先根据图书分类(簇)确定书可能在哪个书架区域,然后只在该区域内查找,而不是遍历整个图书馆。这些巧妙的算法是向量数据库能够实现大规模向量数据高速检索的关键。

向量数据库的其他功能

不过向量数据库不仅仅是一个ANN库,而是一个具备完整功能的系统。

除了核心的向量索引和检索能力,它还需要提供除了核心的向量索引和检索能力,一个成熟的向量数据库还需要提供全面的数据管理功能,支持向量数据的插入、删除、更新以及按照唯一标识符(ID)进行查找。

同时,许多实际应用中,我们不仅需要存储向量,还需要存储与这些向量关联的结构化或半结构化数据,即元数据(例如,一张图片的拍摄时间、一个商品的颜色或价格、一段文本的作者等),因此,向量数据库必须支持对这些元数据进行高效过滤查询,例如实现“查找所有价格低于100元,并且图片与某张图相似的商品”这样的复杂查询,这通常需要结合向量索引和传统的元数据索引协同工作。为了保证数据安全和可靠,持久化能力必不可少,向量数据和索引需要能够可靠地存储在磁盘等介质上,并通过高效的存储格式(如利用内存映射MMap技术)和后台的数据合并、索引重构来优化存储和访问效率。此外,面对海量向量数据和高并发的查询请求,现代向量数据库通常采用分布式架构,将数据分散存储在多个节点上,并支持查询的并行处理,从而实现系统的可扩展性和横向扩容。为了确保服务的连续性,高可用性与容灾机制也至关重要,通过数据副本和自动故障切换,保证即使部分节点出现问题,整个系统仍能继续对外提供服务。这些综合能力使得向量数据库成为一个强大、可靠的数据平台,能够支撑各种复杂的AI应用场景。

总结 

从给词语、图片等打上数字烙印(向量化),到用数学方法衡量相似度,再到利用ANN算法解决海量向量的快速检索难题,最终发展出具备完整数据库功能的向量数据库系统。

本文地址:https://www.yitenyun.com/227.html

搜索文章

Tags

数据库 API FastAPI Calcite 电商系统 MySQL 数据同步 ACK 双主架构 循环复制 Web 应用 异步数据库 序列 核心机制 生命周期 Deepseek 宝塔面板 Linux宝塔 Docker JumpServer JumpServer安装 堡垒机安装 Linux安装JumpServer esxi esxi6 root密码不对 无法登录 web无法登录 Windows Windows server net3.5 .NET 安装出错 宝塔面板打不开 宝塔面板无法访问 SSL 堡垒机 跳板机 HTTPS Windows宝塔 Mysql重置密码 无法访问宝塔面板 HTTPS加密 查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存 ES 协同 修改DNS Centos7如何修改DNS scp Linux的scp怎么用 scp上传 scp下载 scp命令 防火墙 服务器 黑客 Serverless 无服务器 语言 存储 Spring SQL 动态查询 Oracle 处理机制 Linux 安全 网络架构 工具 网络配置 加密 场景 MySQL 9.3 开源 PostgreSQL 存储引擎 RocketMQ 长轮询 配置 HexHub Canal Rsync 架构 InnoDB 缓存方案 缓存架构 缓存穿透 信息化 智能运维 日志文件 MIXED 3 响应模型 线上 库存 预扣 聚簇 非聚簇 索引 B+Tree ID 字段 数据 业务 AI 助手 数据库锁 监控 分库 分表 单点故障 优化 万能公式 云原生 GreatSQL Hash 字段 DBMS 管理系统 SpringAI Redis 自定义序列化 Redis 8.0 openHalo OB 单机版 数据集成工具 sqlmock SVM Embedding PostGIS 系统 SQLark 虚拟服务器 虚拟机 内存 SQLite Redka ​Redis 机器学习 推荐模型 自动重启 运维 缓存 sftp 服务器 参数 分页查询 Netstat Linux 服务器 端口 排行榜 排序 同城 双活 容器化 聚簇索引 非聚簇索引 共享锁 • 索引 • 数据库 RDB AOF 技术 Testcloud 云端自动化 查询 EasyExcel MySQL8 prometheus Alert SQLite-Web 数据库管理工具 向量数据库 大模型 IT 不宕机 数据备份 Postgres OTel Iceberg 分布式架构 分布式锁​ 数据类型 OAuth2 Token Entity 开发 StarRocks 数据仓库 Doris SeaTunnel AIOPS Python Web MongoDB 容器 人工智能 推荐系统 IT运维 分页 数据结构 连接控制 机制 Caffeine CP 部署 LRU Milvus 悲观锁 乐观锁 池化技术 连接池 崖山 新版本 高可用 向量库 Ftp redo log 重做日志 MVCC 事务隔离 磁盘架构 流量 电商 MCP mini-redis INCR指令 开放协议 Web 接口 字典 QPS 高并发 微软 SQL Server AI功能 单线程 线程 速度 服务器中毒 数据脱敏 加密算法 R2DBC 双引擎 RAG HelixDB 原子性 对象 窗口 函数 频繁 Codis 主库 Order 网络 Crash 代码 ZODB SSH Pottery dbt 数据转换工具 1 PG DBA 工具链 引擎 性能 List 类型 优化器 InfluxDB 模型 传统数据库 向量化 发件箱模式 意向锁 记录锁 网络故障 事务同步 UUIDv7 主键 仪表盘 Redisson 锁芯 线程安全 INSERT COMPACT Undo Log LLM 连接数 订单 JOIN