|
10 months ago | ||
---|---|---|---|
.github/workflows | 删除 | 10 months ago | |
benchmarks | 删除 | 10 months ago | |
cmake | 删除 | 10 months ago | |
db | 删除 | 10 months ago | |
doc | 删除 | 10 months ago | |
helpers/memenv | 删除 | 10 months ago | |
include/leveldb | 删除 | 10 months ago | |
issues | 删除 | 10 months ago | |
port | 删除 | 10 months ago | |
table | 删除 | 10 months ago | |
test | 删除 | 10 months ago | |
third_party | 删除 | 10 months ago | |
util | 删除 | 10 months ago | |
.clang-format | 10 months ago | ||
.gitignore | 10 months ago | ||
.gitmodules | 10 months ago | ||
AUTHORS | 10 months ago | ||
CMakeLists.txt | 10 months ago | ||
CONTRIBUTING.md | 10 months ago | ||
LICENSE | 10 months ago | ||
NEWS | 10 months ago | ||
README.md | 10 months ago | ||
TODO | 10 months ago |
本项目的背景是提升 LevelDB 在高写入负载场景下的性能。LevelDB 是一种轻量级的键值存储引擎,但在数据频繁更新或大值(Large Values)存储场景下,由于数据写入和合并(Compaction)过程的设计,其性能可能受到显著影响。为解决这一问题,项目目标是实现 KV(Key-Value)分离机制,以降低写放大现象并提高存储效率。
具体实现内容包括在 LevelDB 内部引入 KV 分离功能,即将键(Key)与值(Value)存储到不同的存储介质中。通过修改 SSTable 的结构设计,将键与指向值的指针存储在原有的文件中,而将实际值存储到单独的文件或存储介质中,从而减少 Compaction 操作对大值的处理负担。此外,项目还优化了数据访问逻辑,实现了值文件的高效读写支持。
该功能的应用场景主要包括:
设计目标: 能够准确描述kv的属性数量,以及每一个属性的名称和字节数量。
设计思路:
key的格式:| key | vlog_fileno | value_offset |
单个value的格式:| {attr1名称长度(定长), attr1名称(变长), attr1的偏移量(定长)}, ...{attr1长度(定长), attr1内容(变长)}, ... |
设计目标: 将value的存储和key在lsm tree中的存储分离,降低lsm tree的GC开销
设计思路:
key的格式:| key | vlog_page_slot |
vlog_page: | slot0:{vlog_no, offset}, slot1:{vlog_no, offset}, ... |
对于每一次读取,用户线程先读取lsm tree中key的slot下标,然后到vlog_page中读取对应的slot内容(每一个slot都是定长的),之后再在这个slot中读取value所在的vlog文件号和偏移量offset,之后到对应的vlog文件中读取value。
但是这又带来了一个问题,我们该如何管理vlog_page这个文件?当插入新的kv时,我们需要在这个vlog_page中分配新的slot,在GC删除某个kv时,我们需要将对应的slot进行释放。这里我们选择在内存中维护一个可线性扩展的bitmap。这个bitmap中每一个bit标识了当前vlog_page文件中对应slot是否被使用,是为1,不是为0。这样一来,在插入新kv时,我们可以用bitmap来分配一个新的slot(将bitmap中第一个为0的bit设置为1),将内容进行写入;在GC删除某个kv时,我们将这个slot对应的bitmap中的bit重置为0即可。
这里只展示和vlog以及GC无关的接口,vlog的创建,管理以及后台线程的GC设计到vlog等新数据结构的实现,较为复杂和庞大,这里不做展示。我们只列出与kv的插入有关的新接口:
单元测试:
性能测试:
列出实现过程中可能遇到的技术难题及其解决思路,如如何处理GC开销、数据同步、索引原子更新等问题。 各种参数的设置,比如vlog的容量上限,以及vlog_page的bitmap管理方式是否足够高效?以及在GC过程中如果对被GC中的vlog进行写入该让用户线程和后台线程以什么样的方式进行同步?vlog_page的读写放大也是一个重要的问题。
功能 | 完成日期 | 分工 |
---|---|---|
vlog中value的存储格式 | 12.8 | 王雪飞 |
vlog_page实现 | 12.8 | 马也驰 |
vlog的GC实现 | 12.29 | 马也驰 |
性能测试 | 1.5 | 王雪飞 |
功能测试 | 1.5 | 马也驰 |