您当前的位置:资讯 > >正文
字节跳动数据平台论文被ICDE国际顶会收录 快看点

时间:2023-05-16 18:02:29   来源:中关村在线


(相关资料图)

2023-05-16 16:38:11 作者:宋均益

近期,第39届IEEE数据工程国际会议(以下简称ICDE )在美国加利福尼亚召开,由字节跳动数据平台提交的论文聚焦数据库领域,提出 WaLSM架构设计、优化和性能提升的创新技术方案,成功被大会收录。

ICDE是全球数据库领域的三大会议之一,重点面向数据工程和数据密集型系统研究人员, 致力于解决设计、构建、管理和评估高级数据密集型系统和应用程序方面的研究问题,也是研究人员、从业者、开发人员和用户探索前沿思想并交流技术、工具和经验的领先论坛。

据介绍,本次 ICDE 吸引了大约700人参与,共接收256篇论文,其中14篇为数据库系统相关研究。作为数据库系统的研究成果之一,字节跳动数据平台投递的论文《Workload-Aware Log-Structured Merge Key-Value Store for NVM-SSD Hybrid Storage 》,重新设计 WaLSM,针对真实负载具备强访问倾斜性的特点,结合 DRAM-NVM-SSD 存储系统优势,提出自适应的 LSM-tree 调优方案,具备极强的技术创新性,因而被ICDE收录。

字节跳动专家团队在ICDE 2023展区

该项成果的创新性在于,WaLSM 提出了一种几乎无额外开销的数据分区方式,对硬盘上的数据进行分区,降低 Merge 策略调整粒度,增加了针对硬盘上负载捕捉访问模式的能力。以分区为单位,WaLSM 在真实负载下基于强化学习算法,支持自适应地调整各个分区使用的 Merge 策略,以更好实现写放大与查询收益之间的平衡。

值得一提的是,此次论文中的成果未来将通过ByteHouse对外开放。ByteHouse是火山引擎数智平台旗下的一款云原生数据仓库,支撑实时数据分析、海量数据离线分析,为用户提供极速体验,而WaLSM 的自适应调整算法可以帮助 ByteHouse 根据真实负载中的数据热点找到全局较优的 Merge 策略,降低 IO 开销,最终提升MergeTree 存储引擎的整体吞吐量。

据介绍,字节跳动在2017年就开始大规模启用ClickHouse,并拥有着国内规模最大的ClickHouse集群。面向ToB市场推出的ByteHouse则是字节跳动在大量经验实践上,对ClickHouse深度优化、自研改造的成果。

从架构上来看,ByteHouse采用了自研的高可用引擎,支持数据实时更新、删除,新增了自研的查询优化器,并且在集群的运维和多表关联的场景都做了相应的增强,保证用户在复杂查询的场景下具备更高的查询效能。

目前,海王集团、中国地震台网中心等行业的客户都已与火山引擎ByteHouse达成合作,通过海量数据实时分析的极速服务,辅助决策落地,加速业务洞察,更好更快地实现数智化升级。(作者:姚元宇)

标签:

精心推荐