作者: 韩晨旭 10225101440 李畅 10225102463
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

385 lines
13 KiB

1 month ago
1 month ago
1 month ago
1 month ago
1 month ago
1 month ago
1 month ago
1 month ago
1 month ago
1 month ago
1 month ago
1 month ago
1 month ago
1 month ago
1 month ago
1 month ago
1 month ago
  1. ## 1. 项目概述
  2. ### 项目背景
  3. 本项目基于LevelDB源代码进行修改和优化。`LevelDB`使用`LSM Tree`的数据结构,是`key-value`数据库的典型。LSM树后台为了加速查询,将键值对从磁盘里读取、排序再写入,会带来50倍以上的写放大。这种对HDD有利的优化方式不适用于当下使用较多的SSD,因此我们需要对其功能进行修改和优化。
  4. ### 实现功能
  5. 本项目要实现的内容及目的是:
  6. + **字段设计**:模仿关系型数据库,扩展`value`的结构,在`value`中多个字段,并可以通过这些字段进行查询对应的`key`,实现类似关系数据库中按列查询的功能
  7. + **KV分离**:分离存储LevelDB的`key`和`value`,LSM树中的value为一个指向`Value Log`文件的指针,用户的真实`value`存储在`Value Log`中,减轻LSM树的存储负载,大幅度减小了读写放大的性能影响
  8. ## 2. 功能设计
  9. #### 2.1. 字段设计
  10. - 设计目标
  11. - 将 LevelDB 中的 `value` 组织成字段数组,每个数组元素对应一个字段(字段名:字段值)。
  12. - 不改变LevelDB原有的存储方式,通过对字段数组的序列化和对字符串解析得到字段数组来实现字段功能
  13. - 在作为key-value对存储进LevelDB之前可以任意调整字段
  14. - 可以通过字段查询对应的key
  15. - 实现思路
  16. - 将字段数组设计为一个class `Fields` ,其拥有对于字段进行操作的各种方法,方便对字段的修改,该类也作为 `Get` 方法和 `Put` 方法返回和插入的对象
  17. - 根据key查询时如果指定字段名则返回对应的字段,如果未指定字段名则返回所有字段
  18. - Put仅有value时(原本的Put方法)自动给value增加递增的字段
  19. - 为Iterator类添加新的方法 `fields` ,用于范围查询时获得查询结果
  20. - 对于给定的字段,遍历LevelDB得到其对应的所有keys,作为 `DB` 类的新方法 `FindKeysByField`
  21. #### 2.2. KV分离
  22. - 设计目标
  23. - 拓展key-value存储结构,分离key和value的存储,从而对写放大进行优化
  24. - 不影响LevelDB原本接口的正常功能
  25. - 分离存储Value的Value-Log需要有对应的GC(Garbage Collection)功能,在达到一定条件(如Value -Log超过大小阈值)时触发,回收Value-Log中已经失效的Value
  26. - 确保操作的原子性
  27. - 设计思路
  28. - 存入LSM-tree中的kv对为 `<key, value-addr>` ,value-addr保存了 `<vLog-offset, value-size>` ,对应value在vLog开始位置的便宜和value的大小
  29. - vLog的写入可以仿照LevelDB的Memtable机制,以防止频繁的写磁盘
  30. - vLog采用Append-Only,新数据仅在head添加,在回收时从tail处取得一块chunk,将其中有效的数据Append到head处,同时保证tail被永久保存到LSM-tree中,最后将整块chunk释放
  31. - 为了优化GC的效率,vLog同时存储key和value,而不是仅存入value
  32. - **`(可能的优化)`** 因为vLog同时存入了key和value,因此LSM-tree不再需要log file,因为在恢复时可以通过vLog进行恢复,但对整个vLog扫描是不可取的,因此可以定期在LSM-tree中更新head(vLog的末尾),在恢复时从该head恢复到当前vLog的最末端
  33. ## 3. 数据结构设计
  34. #### 3.1. 字段功能
  35. - Field, FieldArray
  36. - ```c++
  37. using Field = std::pair<std::string, std::string>;
  38. using FieldArray = std::vector<std::pair<std::string, std::string>>;
  39. ```
  40. - Fields
  41. - 封装有 `std::map<std::string, std::string>` 的class,其接口在 **[4](#4. 接口/函数设计)**中详细描述,用map实现在字段较多时可以获得较高的查询效率
  42. - FieldString
  43. - ```
  44. FieldString遵从以下格式:
  45. <field_size1, field1, field_size2, field2, ...>
  46. field遵从以下格式:
  47. <name_size, name, value>
  48. ```
  49. #### 3.2. KV分离
  50. - Key-Value分离结构图示:
  51. ![kv-sep](./assets/kv-sep.png)
  52. - Value Log中实际存储的内容 :
  53. ![vLog](./assets/vLog.png)
  54. ## 4. 接口/函数设计
  55. #### 4.1. 字段功能
  56. - Fields
  57. - ```c++
  58. class Fields {
  59. private:
  60. std::map<std::string, std::string> _fields;
  61. public:
  62. // 从FieldArray构建Fields
  63. Fields(FieldArray field_array);
  64. // 从LevelDB存储的Value中解码出Fields
  65. Fields(std::string fields_str);
  66. ~Fields();
  67. // 重载[]运算符简便对字段的修改和访问操作
  68. std::string& Fields::operator[](const std::string& field_name);
  69. // 获取当前Fields对应的FieldArray
  70. FieldArray GetFieldArray();
  71. // 将Fields编码为存入LevelDB的Value
  72. std::string Serialize();
  73. }
  74. ```
  75. - FindKeysByField
  76. - ```c++
  77. // 根据字段值查找所有包含该字段的 key
  78. std::vector<std::string> FindKeysByField(leveldb::DB* db, Field &field) {
  79. ...
  80. }
  81. ```
  82. #### 4.2. KV分离
  83. - ```c++
  84. // 将value写入vLog,并把将要写入LSM-tree的地址返回为value_addr
  85. // 该函数在Put中被调用
  86. void WriteValue(const Slice& key, const Slice& value, Slice& value_addr,
  87. bool sync);
  88. ```
  89. - ```c++
  90. // 通过value_addr从vLog中获得value并返回
  91. void GetValue(const Slice& value_addr, Slice& value);
  92. ```
  93. - ```c++
  94. // ValueLog在LevelDB启动时即作为LevelDB的一个成员初始化一个实例
  95. // 后续db都使用该实例进行ValueLog相关操作
  96. class ValueLog {
  97. private:
  98. WriteBuff _buff;
  99. uint64_t _head;
  100. uint64_t _tail;
  101. // 将缓存内容真正写入磁盘的vLog中
  102. bool WirteDisk();
  103. public:
  104. ValueLog();
  105. ~ValueLog();
  106. // 返回vLog中head处的offset
  107. uint64_t Head();
  108. // 返回vLog中tail处的offset
  109. uint64_t Tail();
  110. // 将key-value对插入Value Log,返回对应的value_addr
  111. // 若用户要求同步写入,即sync为true,则立即将数据写入磁盘
  112. Slice Append(const Slice& key, const Slice& value, bool sync);
  113. // 通过value_addr获得value,首先在buff中寻找,然后才真正访问vLog
  114. Slice Get(const Slice& value_addr);
  115. // 对ValueLog文件进行GC操作,释放空间
  116. void GarbageCollection(uint64_t chunk_size);
  117. }
  118. ```
  119. - ```c++
  120. // WriteBuff的功能与Memtable极其相似,实现可以大量仿照Memtable,甚至直接使用Memtable
  121. // 因此,此处仅列出WriteBuff需要提供的两个接口,其他成员不再列出
  122. class WriteBuff {
  123. // 向buff中插入一条value_addr-vLogValue(<ksize, vsize, key, value>)对
  124. void Add(const Slice& value_addr, const Slice& key, const Slice& value);
  125. // 在buff中查询对应value_addr对应的value
  126. // 找到返回true,否则返回false
  127. bool Get(const Slice& value_addr);
  128. // 将缓存内容写入磁盘
  129. bool WirteDisk();
  130. }
  131. ```
  132. ## 5. 功能测试
  133. ### 单元测试
  134. 对于实现的代码,首先设计测试用例验证其功能的正确性。
  135. #### 1. 字段
  136. 在这一部分中,测试用例需要考虑到能否正确存入含有多字段的`value`,并正确读取,以及是否能根据目标字段找到对应的所有`key`。
  137. ```c++
  138. // 测试能否正确存入和读取
  139. TEST(TestFields, GetPutIterator) {
  140. DB *db;
  141. if(OpenDB("testdb", &db).ok() == false) {
  142. cerr << "Open DB Failed" << endl;
  143. }
  144. std::string key_1 = "k_1";
  145. std::string key_2 = "k_2";
  146. FieldArray field_array_1 = {
  147. {"name", "Arcueid01"},
  148. {"address", "tYpeMuuN"},
  149. {"phone", "122-233-4455"}
  150. };
  151. FieldArray field_array_2 = {
  152. {"name", "Arcueid02"},
  153. {"address", "tYpeMuuN"},
  154. {"phone", "199-999-2004"}
  155. };
  156. const auto fields_1 = Fields(field_array_1);
  157. const auto fields_2 = Fields(field_array_2);
  158. db->Put(WriteOptions(), key_1, fields_1);
  159. db->Put(WriteOptions(), key_2, fields_2);
  160. Fields ret;
  161. db->Get(ReadOptions(), key_1, &ret);
  162. const auto fields_ret = ret.GetFieldArray();
  163. ASSERT_EQ(CompareVector<Field>(fields_ret, field_array_1), true);
  164. db->Get(ReadOptions(), key_2, &ret);
  165. ASSERT_EQ(ret["name"], "Arcueid02");
  166. ASSERT_EQ(ret["address"], "tYpeMuuN");
  167. ASSERT_EQ(ret["phone"], "199-999-2004");
  168. auto iter = db->NewIterator(ReadOptions());
  169. iter->SeekToFirst();
  170. while (iter->Valid()) {
  171. auto key = iter->key().ToString();
  172. auto fields = iter->fields();
  173. if (key == "k_1") {
  174. ASSERT_EQ(fields["name"], "Arcueid01");
  175. ASSERT_EQ(fields["address"], "tYpeMuuN");
  176. ASSERT_EQ(fields["phone"], "122-233-4455");
  177. }
  178. if (key == "k_2") {
  179. ASSERT_EQ(fields["name"], "Arcueid02");
  180. ASSERT_EQ(fields["address"], "tYpeMuuN");
  181. ASSERT_EQ(fields["phone"], "199-999-2004");
  182. }
  183. iter->Next();
  184. }
  185. delete iter;
  186. delete db;
  187. }
  188. ```
  189. ```c++
  190. // 测试能否根据字段查找key
  191. TEST(TestFields, SearchKey) {
  192. DB *db;
  193. if(OpenDB("testdb", &db).ok() == false) {
  194. cerr << "Open DB Failed" << endl;
  195. }
  196. std::vector<std::string> keys_have_field = {"k_1", "k_3"};
  197. std::vector<std::string> keys_wo_field = {"k_2", "k_4"};
  198. Field field_test = {"test_name", "Harry"};
  199. FieldArray field_array_have_field = {
  200. {"name", "Arcueid"},
  201. {"address", "tYpeMuuN"},
  202. {"phone", "122-233-4455"},
  203. field_test
  204. };
  205. FieldArray field_array_wo_field = {
  206. {"name", "Arcueid"}, {"address", "tYpeMuuN"}, {"phone", "122-233-4455"}};
  207. const auto fields_have_field = Fields(field_array_have_field);
  208. const auto fields_wo_field = Fields(field_array_wo_field);
  209. for(const auto& key : keys_have_field){
  210. db->Put(WriteOptions(), key, fields_have_field);
  211. }
  212. for (const auto& key : keys_wo_field) {
  213. db->Put(WriteOptions(), key, fields_wo_field);
  214. }
  215. const std::vector<std::string> key_ret = db->FindKeysByField(field_test);
  216. ASSERT_EQ(CompareVector<std::string>(key_ret, keys_have_field), true);
  217. }
  218. ```
  219. #### 2. KV分离
  220. ```c++
  221. // 测试KV分离的写入与读取的正确性
  222. TEST(TestKVSeparate, PutGetIterator){
  223. std::string key = "k_1";
  224. std::string value = "ar";
  225. std::value_addr;
  226. db->Put(WriteOptions(), key, value, &value_addr);
  227. // 测试能否通过存储的value_addr读取对应vlog中存储信息
  228. std::value value_ret;
  229. GetValue(&value_addr, &value_ret);
  230. assert(value_ret == value);
  231. // 测试能否直接通过key读取对应value
  232. db->Get(ReadOptions(), key, &value_ret);
  233. assert(value_ret == value);
  234. }
  235. ```
  236. ### 性能测试 Benchmark
  237. 设计代码测试读、写、扫描、字段查询等操作的**吞吐量、延迟和写放大**情况,反映LevelDB的性能。
  238. ```c++
  239. // 测试吞吐量
  240. void TestThroughput(leveldb::DB* db, int num_operations) {
  241. auto start_time = std::chrono::steady_clock::now();
  242. for (int i = 0; i < num_operations; ++i) {
  243. // Operations
  244. }
  245. auto end_time = std::chrono::steady_clock::now();
  246. auto duration = chrono::duration_cast<chrono::milliseconds>(
  247. end_time - start_time).count();
  248. cout << "Throughput: " << num_operations * 1000 / duration << " OPS" << endl;
  249. }
  250. ```
  251. ```c++
  252. // 测试延迟
  253. void TestLatency(leveldb::DB* db, int num_operations,
  254. std::vector<int64_t> &lat_res) {
  255. int64_t latency = 0;
  256. auto end_time = std::chrono::steady_clock::now();
  257. auto last_time = end_time;
  258. for (int i = 0; i < num_operations; ++i) {
  259. // Operations
  260. end_time = std::chrono::steady_clock::now();
  261. latency = std::chrono::duration_cast<std::chrono::milliseconds>(
  262. end_time - last_time).count();
  263. last_time = end_time;
  264. lat_res.emplace_back(latency);
  265. }
  266. }
  267. ```
  268. 对于写放大,通过LevelDB的log信息计算系统的写放大。
  269. ## 6. 可能遇到的挑战与解决方案
  270. ### 字段设计可能的问题
  271. + 字段数量过多可能导致存储结构复杂,更改字段时性能下降
  272. + 字段可能包含多种类型,增加解析复杂性
  273. + 不同字段大小差异大,导致读写性能下降
  274. ### KV分离可能的问题
  275. + 数据一致性:Key和Value存储位置不同,写入或删除时需要保证一致性
  276. + 系统崩溃、磁盘损坏等可能导致分离存储的Value丢失
  277. + 分离存储的Value文件的大小优先,如何合适地存储超大Value
  278. + 分离存储导致读写时需要经过索引,读写放大产生性能影响
  279. #### 解决方案待定
  280. ## 7. 分工和进度安排
  281. | 功能 | 完成日期 | 分工|
  282. | :------: | :-----: | :-----:|
  283. | Fields类和相关接口实现 | 12月1日 | 韩晨旭 |
  284. | 修改LevelDB接口实现字段功能 | 12月1日 | 李畅 |
  285. | ValueLog类相关接口实现 | 12月19日 | 李畅 |
  286. | WriteBuff类相关接口实现 | 12月19日 | 韩晨旭 |
  287. | 吞吐量测试 | 12月26日 | 韩晨旭 |
  288. | 延迟测试 | 12月26日 | 李畅 |
  289. | 写放大测试对比 | 12月26日 | 韩晨旭、李畅 |
  290. | 尝试对系统性能进行优化 | 1月4日 | 韩晨旭、李畅 |