15 KiB

Raw Blame History

LevelDB设计文档

王雪飞，马也驰

1.项目概述及目标

1.1 项目概述

本项目的背景是提升 LevelDB 在高写入负载场景下的性能。LevelDB 是一种轻量级的键值存储引擎，但在数据频繁更新或大值（Large Values）存储场景下，由于数据写入和合并（Compaction）过程的设计，其性能可能受到显著影响。为解决这一问题，项目目标是实现 KV（Key-Value）分离机制，以降低写放大现象并提高存储效率。

具体实现内容包括在 LevelDB 内部引入 KV 分离功能，即将键（Key）与值（Value）存储到不同的存储介质中。通过修改 SSTable 的结构设计，将键与指向值的指针存储在原有的文件中，而将实际值存储到单独的文件或存储介质中，从而减少 Compaction 操作对大值的处理负担。此外，项目还优化了数据访问逻辑，实现了值文件的高效读写支持。

该功能的应用场景主要包括：

适用于大值写入频繁的场景，如日志存储、视频元数据管理等。
提升 SSD 等固态存储设备的寿命，减少写入放大带来的磨损。
在混合存储架构中，提高冷热数据分离的效率。

1.2 项目目标

本项目涵盖下面三个方面：

实验一：在 LevelDB 的 value 中实现字段功能。
实验二：实现 KV 分离。
实验三：实现 Benchmark,测试并分析性能。

2. 实验内容

2.1 在 LevelDB 的 value 中实现字段功能

具体指：基于 levelDB扩展 value 的结构，使其可以包含多个字段，并通过这些字段实现类似数据库列查询的功能。

2.1.1 实验要求：

字段存储：

将 LevelDB 中的 value 组织成字段数组，每个数组元素对应一个字段（字段名：字段值）。
字段会被序列化为字符串，然后插入LevelDB。
这些字段可以通过解析字符串得到，字段名与字段值都是字符串类型。
允许任意调整字段。

查询功能：

实现通过字段值查询对应的 key。

2.1.2 实验内容

数据存储与解析: 每个 value 存储为一个字符串数组，数组中的每个元素代表一个字段。
通过字段查询 Key: 实现函数FindKeysByField，传入字段名和字段的值就可以找到对应的key

设计思路：

使用 Field 存储属性和值，使用 FieldArray 存储多个 Field;
函数 SerializeValue 把字段数组序列化为字符串;
函数 DeserializeValue 把字符串反序列化为字段数组;
函数 FindKeysByField 根据传入的字段名和字段的值找到对应的key。

2.1.3 实验进度以及实验结果

实验进度

已初步实现上述四个函数，后续会对查询函数 FindKeysByField 进行优化和完善，并将上述函数添加到 LevelDB 的代码之中。

实验结果

通过测试

2.2 KV分离

设计目标： 将value的存储和key在lsm tree中的存储分离，降低lsm tree的GC开销

设计思路：

value的分离式存储我们使用若干个vlog文件，为每一个vlog文件设置容量上限（比如16MiB），并在内存中为每一个vlog维护一个discard计数器，表示这个vlog中当前有多少value已经在lsm tree中被标记为删除。
存储value所在vlog和偏移量的元数据我们在key和vlog中添加一个slot_page的中间层，这一层存储每一个key对应的value所在的vlog文件和文件内偏移，而lsm tree中的key包含的实际上是这个中间层的slot下标，而每一个slot中存储的是key所对应的vlog文件号以及value在vlog中的偏移。这样，我们就可以在不修改lsm tree的基础上，完成对vlog的compaction，并将vlog的gc结果只反映在这个中间层slot_page中。这个slot_page实际上也是一个线性增长的log文件，作用类似于os中的页表，负责维护lsm tree中存储的slot下标到vlog和vlog内偏移量的一个映射。这样，通过slot_page我们就可以找到具体的vlog文件和其文件内偏移量。对于vlog的GC过程，我们不需要修改lsm tree中的内容，我们只需要修改slot_page中的映射即可。
slot_page文件和vlog文件的GC 对于vlog文件，我们在内存中维护一个bitmap，用来表示每一个slot的使用情况，并在插入和GC删除kv时进行动态的分配和释放。对于vlog文件的GC，我们用一个后台线程来扫描所有vlog的discard计数器。当某些vlog的discard计数器超过某个阈值（比如1024），我们就对这些vlog文件进行GC过程，当GC完成之后将slot_page中的slot元数据进行更新，再将原来的vlog文件进行删除，GC过程就完成了。

2.2.1 相关代码文件

/db/db_impl.cc: 修改函数 DBImpl::Get, DBImpl::Put 和 DBImpl::Delete,添加函数 Put_fields, Get_fields, get_slot_num,SerializeValue, DeserializeValue
/db/db_impl.h: 添加两个结构体 SlotPage *slot_page_; VlogSet *vlog_set_ ，添加增加的相关函数的声明
/db/shared_lock.h 定义了一个 SharedLock 类，用于实现读写锁机制，包含四种操作：soft_lock():获取共享读锁，确保在没有写操作时允许多个读操作并发进行；soft_unlock():释放共享读锁；hard_lock():获取独占写锁，确保只有当没有其他读写操作时，允许写入操作进行；hard_unlock():释放独占写锁。
/db/slotpage.h
/db/threadpool.h
/db/vlog.h
/db/vlog_gc.cpp
/db/vlog_gc.h
/db/vlog_set.cpp
/db/vlog_set.h
/test/db_test3.cc：测试 value 的字段功能
/test/db_test4.cc
/test/db_test5.cc
CMakeLists.txt：添加可执行文件

2.2.1 具体流程

写入流程

Status DBImpl::Put_Fields(const WriteOptions& opt, const Slice& key,
                          const FieldArray& fields) {
  // TODO(begin): allocate slot_num in slotpage and put value in vlog
  // 将字段数组序列化
  size_t slot_num = slot_page_->alloc_slot();
  std::string slot_num_str((char *)&slot_num, sizeof(size_t));
  // size_t slot_num_str_num;
  // std::memcpy(&slot_num_str_num, slot_num_str.c_str(), sizeof(size_t));
  // std::cout << "slot_num_str_num: " << slot_num_str_num << std::endl;
  std::string serialized_value = SerializeValue(fields, slot_num_str);
  // std::cout << "Put_Fields: " << key.ToString() << " " << serialized_value << std::endl;
  struct slot_content sc;
  vlog_set_->put_value(&sc.vlog_num, &sc.value_offset, serialized_value);
  slot_page_->set_slot(slot_num, &sc);

  char data[sizeof(size_t)];
  memcpy(data, &slot_num, sizeof(size_t));
  Slice slot_val(data, sizeof(data));

  //  return DB::Put(opt, key, slot_val);
  return DB::Put(opt, key, serialized_value);
  // TODO(end)
}
}

为当前 KV 对分配一个 size_t 类型的 slot_num；
将 slot_num 转化为字符串形式 slot_num_str；
调用 SerializeValue 函数将字段数组和 slot_num_str 序列化为字符串 serialized_value；
实例化 slot_content 结构体 sc;
调用 put_value 函数，以 sc 中的 vlog_num(vlog编号) 和 value_offset(在vlog中的偏移量) 为参数，将字符串 serialized_value 写入 vlog 中;
调用 set_slot 函数，将 slot_content 中的内容赋值给 slot_num;
将 slot_num 作为 value 写入数据库中;

读取流程

// TODO(begin): search the slotpage and get value from vlog
  size_t slot_num = *(size_t *)value->c_str();
  struct slot_content sc;
  std::string vlog_value;
  slot_page_->get_slot(slot_num, &sc);
  vlog_set_->get_value(sc.vlog_num, sc.value_offset, &vlog_value);
  *value = vlog_value;
  // TODO(end)

读取 key 对应的 value，也就是 slot_num
实例化 slot_content 结构体 sc
根据 slot_num 从 slot_page_ 中读取 slot_content
利用 sc 中的 vlog_num(vlog编号) 和 value_offset(在vlog中的偏移量) 从 vlog 中读取字符串
将字符串进行解码得到 value

删除流程

// TODO(begin)
  ReadOptions ro;
  ro.verify_checksums = true;
  ro.fill_cache = false;
  ro.snapshot = nullptr;
  std::string value;
  Get(ro, key, &value);
  size_t slot_num = *(size_t *)value.c_str();
  struct slot_content sc;
  std::string vlog_value;
  slot_page_->get_slot(slot_num, &sc);
  vlog_set_->del_value(sc.vlog_num, sc.value_offset);
  // TODO(end)

读取 key 对应

锁机制

3. 数据结构设计

key的格式：| key | slot_num |

slot_page: | slot0:{vlog_no(定长), offset(定长)}, slot1:{vlog_no, offset}, ... |

对于每一次读取，用户线程先读取lsm tree中key的slot_num下标，然后到slot_page中读取对应的slot内容(每一个slot都是定长的)，之后再在这个slot中读取value所在的vlog文件号和偏移量offset，之后到对应的vlog文件中读取value。

但是这又带来了一个问题，我们该如何管理slot_page这个文件？当插入新的kv时，我们需要在这个slot_page中分配新的slot，在GC删除某个kv时，我们需要将对应的slot进行释放。这里我们选择在内存中维护一个可线性扩展的bitmap。这个bitmap中每一个bit标识了当前slot_page文件中对应slot是否被使用，是为1，不是为0。这样一来，在插入新kv时，我们可以用bitmap来分配一个新的slot（将bitmap中第一个为0的bit设置为1），将内容进行写入；在GC删除某个kv时，我们将这个slot对应的bitmap中的bit重置为0即可。

4. 接口设计

4.1 在 LevelDB 的 value 中实现字段功能

std::string SerializeValue(const FieldArray& fields, std::string slot_num_str)

功能： 将字段数组和 slot_num_str 序列化为字符串

输入： 字段名和字段的值组成的字段数组和 slot_num_str,即为该 KV 对分配的 slot_num 的字符串形式

输出： 序列化后的字符串

FieldArray DeserializeValue(const std::string& value_str)

功能： 将字符串反序列化为字段数组

输入： 字符串

输出： 反序列化的字段数组

std::vector< std::string >FindKeysByField(leveldb::DB* db, Field &field)

功能： 根据字段名和字段的值找到对应的key

输入： 数据库名，字段名和字段的值

输出： 包含该字段和字段数组的 key,由于可能不只有一个，所以返回值为 vector

Put_Fields(const WriteOptions& opt, const Slice& key, const FieldArray& fields)

功能： 仿照Status DB::Put(const WriteOptions& opt, const Slice& key, const Slice& value)，调用序列化函数，实现以字段形式插入 value

Get_Fields(const ReadOptions& options, const Slice& key, FieldArray* fields)

功能： 仿照Status DB::Get(const WriteOptions& opt, const Slice& key, const Slice& value)，读取key对应的 value 之后，通过调用反序列化函数，将 value 反序列化为字段数组，并存到 fields 中

4.2 实现KV分离

搜索slot_page文件: Status find_slot(const Slice& key, Slot *slot);
搜索vlog文件: Status find_value(Slot *slot);
分配新的slot: Status allocate_slot(Bitmap *map, uint64_t *s);
释放slot: void deallocate_slot(Bitmap *map, uint64_t *s);

5. 功能测试

5.1 在 LevelDB 的 value 中实现字段功能

5.1.1 功能测试

能否以字段形式插入并读取数据
能否以通过字段值查询对应的 key

Status OpenDB(std::string dbName, DB **db) {
  Options options;
  options.create_if_missing = true;
  return DB::Open(options, dbName, db);
}

TEST(TestSchema, Basic) {
  DB *db;
  WriteOptions writeOptions;
  ReadOptions readOptions;
  if(OpenDB("testdb", &db).ok() == false) {
    std::cerr << "open db failed" << std::endl;
    abort();
  }
  std::string key1 = "k_1";
  std::string key2 = "k_2";
  FieldArray fields1 = {
      {"name", "Customer1"},
      {"address", "IVhzIApeRb"},
      {"phone", "25-989-741-2988"}
  };

  FieldArray fields2 = {
      {"name", "Customer1"},
      {"address", "ecnu"},
      {"phone", "123456789"}
  };
  FieldArray fields3 = {
      {"name", "Customer2"},
      {"address", "ecnu"},
      {"phone", "111111111"}
  };
  // 序列化并插入
  std::string value1 = SerializeValue(fields1);
  std::string value2 = SerializeValue(fields2);
  std::string value3 = SerializeValue(fields3);
  db->Put(leveldb::WriteOptions(), key1, value1);
  db->Put(leveldb::WriteOptions(), key2, value2);
  db->Put(leveldb::WriteOptions(), key2, value3);

  // 读取并反序列化
  std::string value_ret;
  db->Get(leveldb::ReadOptions(), key1, &value_ret);
  auto fields_ret = ParseValue(value_ret);

  // 检查反序列化结果
  ASSERT_EQ(fields_ret.size(), fields1.size());
  for (size_t i = 0; i < fields_ret.size(); ++i) {
    ASSERT_EQ(fields_ret[i].first, fields1[i].first);
    ASSERT_EQ(fields_ret[i].second, fields1[i].second);
  }

  // 测试查找功能
  Field query_field = {"name", "Customer2"};
  std::vector<std::string> found_keys = FindKeysByField(db, query_field);
  std::cout << "找到的key有：" << found_keys.size() << "个" << std::endl;

  // 关闭数据库
  delete db;
}

int main(int argc, char **argv) {
  testing::InitGoogleTest(&argc, argv);
  return RUN_ALL_TESTS();
}

5.1.2 测试结果

插入三条数据，name 字段分别为： Customer1, Customer1, Customer2

先根据 "name":"customer1"查找，结果为：

在根据"name":"customer2"查找，结果为：

5.2

单元测试:

测试插入超过初始slot_page等slot数量之后，是否还能正常插入，检查slot_page文件等线性可扩展性
测试插入后，进行删除，等待GC完成后再读取value和vlog的大小，看看GC过程是否正常进行。

性能测试:

测试插入的吞吐
测试在只有删除的情况下，GC的效率
测试在插入和删除不同比重的负载下，系统的吞吐情况

6. 可能遇到的挑战与解决方案

列出实现过程中可能遇到的技术难题及其解决思路，如如何处理GC开销、数据同步、索引原子更新等问题。各种参数的设置，比如vlog的容量上限，以及slot_page的bitmap管理方式是否足够高效？以及在GC过程中如果对被GC中的vlog进行写入该让用户线程和后台线程以什么样的方式进行同步？slot_page的读写放大也是一个重要的问题。

7. 分工和进度安排

功能	完成日期	分工
Field相关接口实现	12.8	王雪飞
value_log中value的存储格式	12.8	王雪飞
slot_page 相关接口	12.8	马也驰
slot_page实现	12.8	马也驰
修改leveldb的接口实现字段功能	12.17	王雪飞
vlog的GC实现	12.29	马也驰
性能测试	1.5	王雪飞, 马也驰
功能测试	1.5	王雪飞，马也驰

15 KiB Raw Blame History