热点:

    践行一体化战略的OceanBase 让智能时代的数据难题“化繁为简”

      [  中关村在线 原创  ]   作者:徐鹏

    “OceanBase的理念是一体化的产品策略,‘把简单留给客户,复杂留给自己’,要做的事情是用一个数据库解决80%的问题,把OLTP的能力跟OLAP的能力融合在一起,能够处理复杂查询和简单查询,并且可以支持任意规模的数据量,还能够处理不同的数据类型,包括SQL、NoSQL等等,同时,也会支持文档多模数据库。”OceanBase CTO杨传辉说。

    进入智能世界,数据量的指数级增长和业务场景愈发复杂,像传统的MySQL数据库难以处理较为复杂的查询,并且很难进行扩展应对大规模的数据处理需求。因此,OceanBase在13年前就开始了分布式数据库的研发,希望可以解决任意规模、各种复杂性的查询。在一体化理念的指引下,OceanBase进行了很多创新,把分布式的核心技术逐步融入关键数据库领域,包括引入Paxos实现RPO=0、RTO<8s,通过三地五中心实现城市级的容灾等等。同时,OceanBase提出了单机分布式一体化架构,并在关键数据库中引入LSM-Tree存储引擎,大幅降低了存储成本。

    可以说,一体化的理念贯穿于OceanBase的整个发展历程。通过分布式架构底座将多个关键能力融合到一个引擎和一套数据库,从最初的工程一体化、多租户、多兼容模式,演进到HTAP工作负载一体化(混合事务/分析处理),再到单机分布式一体化、多模型、多数据接口,以及面向未来多云基础设施的存算分离引擎,一体化的理念一直是OceanBase产品迭代不断发展的核心。这种思路也为数据库带来了更高性能和更低成本的双重平衡,让数据管理和应用变得更加简单。

    与传统的关系型数据相比,JSON、XML等半结构化数据的处理方式更加灵活,更适合处理复杂应用。同时,对于处理GIS和KV等多样数据的需求也日益凸显。这一过程中,数据库经历了从事务型到分析型,再到支持HTAP两种类型的发展,企业通常会根据不同问题使用不同的数据库,这导致了数据库不断增加,数据的使用和管理变得复杂。OceanBase专注于OLTP场景,从2010年开始逐步打造满足现代数据架构需求的多模态、多兼容模式、多租户、多工作负载、多基础设施等核心能力,推出的一体化数据库,为用户提供简化复杂性的全新可能性。

    OceanBase底层的单机分布式一体化架构主要解决了数据规模的问题,其上搭载的一体化引擎,包括存储引擎、事务处理引擎、SQL引擎、云上/云下存算分离引擎等,解决了数据存储和计算的问题,由此,最终构建了一体化的产品,可以满足单机、分布式、多云、混合负载等多种环境的需求,希望用“一个数据库解决80%的问题”。

    2022年,OceanBase发布了OceanBase 4.0单机分布式一体化数据库,兼具分布式的扩展性和集中式数据库的功能和单机性能,可以在保证水平扩展、不增加分布式相关overhead的前提下,支持机构在业务量小时使用完备功能的单机部署形态,并且能够随着业务压力的变化将数据库从单机平滑扩容到多机分布式,同时具备多机平滑缩容到单机的能力,满足各种规模的企业需求。

    OceanBase的一体化SQL引擎实现了推拉结合的模式,对简单查询拉数据,复杂查询推执行计划,可以更好地把简单查询和复杂查询融入一套系统,同时,还支持Auto DOP等功能,可以自动设置并行度,优化器能够根据统计信息自动判断采用串行或并行执行,以及并行执行具体的并发度。基于I/O能力的资源隔离,OceanBase也进行了加强。此外,OceanBase的单机分布式一体化架构可以从单机到分布式对用户完全透明,期间会有正在运行的SQL、事务、读写等流程,为了保障这些任务在增减服务器时完全不受影响,OceanBase花了四年多的时间解决。

    对此,动态日志流技术就变得至关重要。数据库在恢复时要把一些进行中的操作变成日志写到磁盘里,还要同步到别的机器中,即日志流,对于单机数据库来说,一个日志流可以满足,而分布式系统就会产生多个日志流,引发性能受损、事务操作难以进行等问题。借助动态日志流技术,既可以在单台机器上提供一个日志流,也可以在扩展到多台机器时让日志流“分裂”到多台机器上,保障读/写、事务等性能不受影响,并且降低了分布式的相关开销,实现了RTO小于8秒。

    作为一个多副本的Shared Nothing架构,如何将其部署到多云基础设施也是一个挑战,包括把SharedNothing架构与云上的Shared Storage架构进行融合,由于OceanBase的底层存储引擎是LSM-Tree,可以把数据分成基线数据+增量数据,多个副本之间的基线数据一致,这样在这些副本部署到多云基础设施的时候,多个副本的基线数据酒可以共享同样一份共享存储,做到只有接近一份数据的存储成本。此外,OceanBase也会通过日志副本或仲裁副本的方式进一步降低计算成本的开销,并在云上具备较好的弹性,让Shared Nothing和Shared Storage架构完美融合。

    过去一年,OceanBase在一体化方面投入了大量的努力,例如在分布式架构上实现集中式数据库与单机数据库对标的SQL功能,利用动态日志流等技术把分区动态融入到一个日志流里,使得大事务、表锁等任务的复杂度只与机器数成正比,不与分区数成正比,进而在4.2版本实现了任意大事务没有限制,以及全功能的DDL和表锁。多模融合方面,除了要在一个产品里支持多个模型,还要支持多个模型之间的互操作,包括直接使用HBase、JSON等写入、SQL读取的场景。

    11月16日,OceanBase发布了一体化数据库的首个长期支持版本OceanBase 4.2.1 LTS,包括三大核心能力升级:支持完整的OLTP功能,是面向OLTP核心场景的里程碑版本;更强的性能,相较3.2 LTS版本的OLTP性能提升1.9倍,OLAP性能提升2.7倍;更低的容灾成本,引入基于仲裁的无损容灾方案,通过两个副本实现RPO等于0。随着越来越多的企业在典型的OLTP-based HTAP场景中,迫切需要确保在高性能OLTP的基础上,获得更迅速的实时分析能力。为此,OceanBase还公布了列存实验室版本,与业内一流的大宽表列存数据库ClickHouse现场跑分演练,经过ClickBench性能基准测试,在同等硬件条件下(AWS m5d.24xlarge标准环境),OceanBase列存实验室版本性能达到ClickHouse的同一水平。根据公开的产品路线图,列存版本将于4.3版本(明年4月)正式发布,明年10月支持存算分离的OceanBase4.4也将发布。围绕“一体化”的产品战略,OceanBase还将持续推出针对列存、存算分离的一体化数据库版本,为客户提供更为完善的数据库服务。

    践行一体化战略的OceanBase 让智能时代的数据难题“化繁为简”
    OceanBase CTO 杨传辉

    在OceanBase 4.2.1 LTS中,支持混合负载、多模,以及Auto DOP自动设置并行度SPM SQL执行计划管理,可以更好的满足企业级数据库的复杂查询,支持KV、JSON,把LOB的上限提升至512MB。同时,该版本支持一体化的SQL和事务,任意规模的事务无限制,实现全功能的DDL。此外,还有更好的高可用能力。兼容性方面,OceanBase 4.2.1 LTS版本加强了对MySQL 8.0的支持,提升了Oracle的兼容性,支持DBLink、表锁等Oracle的常见特性,并且通过兼容MySQL Binlog的方式直接接入到下游数据生态。

    OceanBase还围绕关键业务场景升级了相关工具,兼容更丰富的生态,例如,ODC(OceanBase开发者中心)打造了企业级的开发者协同平台,把企业需要的安全合规流程融入到数据库开发者的工作流程中,使得所有的变更操作可回溯、可回滚,OCP(OceanBase管理平台)增强了诊断监控能力,支持全场景的管控。同时,OceanBase把蚂蚁集团、支付宝多年积累的运维和稳定性等经验进行了产品化,形成OAS自助服务输出给客户。OceanBase 4.2.1 LTS版本支持单机模式,可以按需升级到多机模式,或是扩展到分布式,并且支持小规格的部署,可以部署到树莓派中。相比MySQL单机数据库,也有着更好的数据压缩能力。

    践行一体化战略的OceanBase 让智能时代的数据难题“化繁为简”
    OceanBase 4.2.1 LTS关键能力升级

    根据国际咨询机构Forrester《OceanBase总体经济影响报告》的数据显示,采用OceanBase后,企业数据存储空间节约70%、服务器资源节约85%、平均每注册用户数据库成本节约50%,且呈现逐渐成本节约递增的趋势,越用越便宜。通过一个数据库、一套架构、一份数据、一个技术栈、一个引擎的方式,实现多模型、多兼容模式、多租户、多工作负载、单机分布式一体化架构、多基础设施,OceanBase希望用一个数据库满足客户80%的数据库场景需求。

    也就是说,无论是超大规模还是中等规模的客户,OceanBase都是可以提供支持的,并且在融合了多种能力之后可以满足所有的主流场景需求。“我们希望解决任意数据规模、任意基础设施中的80%的数据库问题。”杨传辉说。从2010年至今,多租户、多工作负载、多兼容模式等一体化关键能力已在数百家用户生产环境成功应用,并得到实践验证。

    此前,OceanBase的MPP架构支持行存和行列混合式存,在处理AP任务时相对弱一些,不过在4.3版本中会支持新的列存存储,加强对OLAP的查询能力,可以对大表进行实时分析。“其实我们在OceanBase 0.3的版本(十年前)中就在做AP的项目,甚至后来很多开源的用户会拿OceanBase当做OLAP的数据库使用,但直到现在有了多年的技术和商业积累,我们才决定正式推出。”OceanBase产品部总经理杨志丰表示,“谈到多模,我们希望通过强大的AP引擎分析多模的数据、非结构化的数据,可以在OceanBase一体化数据库中存一份数据就能实现。所有的这些创新集合在一起,用户只需要把数据访问、分析请求用SQL的方式描述出来,剩下的由系统来解决就好。”

    国产化方面,OceanBase与主流的处理器架构都进行了适配,并且对ARM平台等进行了针对性的优化,包括系统层的编译、指令集、CPU特性等等。同时,OceanBase也提供了一体机,包括适配了海光、鲲鹏的产品。

    2010年,OceanBase关注到中国独特场景带来的海量数据处理挑战,从0起步,致力于完全自研国产分布式数据库。2022年,OceanBase发布单机分布式一体化数据库OceanBase 4.0“小鱼”,突破分布式数据库的边界,让分布式数据库真正走向通用。可以说,这背后是13年来,OceanBase持续的自研投入,在性能、高可用、性价比和单机分布式一体化架构上不断达到技术的新高度。正如OceanBase首席科学家阳振坤所言,唯有完全自研才能真正掌握核心代码,主导产品发展,成为国际一流的数据库系统,“OceanBase用十年构筑了分布式关系数据库的根技术,OceanBase的初心是让数据处理越来越普惠,为此OceanBase会在技术上坚持自研、持续突破。”

    本文属于原创文章,如若转载,请注明来源:践行一体化战略的OceanBase 让智能时代的数据难题“化繁为简”https://cio.zol.com.cn/847/8478968.html

    cio.zol.com.cn true https://cio.zol.com.cn/847/8478968.html report 8044 “OceanBase的理念是一体化的产品策略,‘把简单留给客户,复杂留给自己’,要做的事情是用一个数据库解决80%的问题,把OLTP的能力跟OLAP的能力融合在一起,能够处理复杂查询和简单查询,并且可以支持任意规模的数据量,还能够处理不同的数据类型,包括SQL、NoSQL等等,...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐经销商
    投诉欺诈商家: 010-83417888-9185
    • 北京
    • 上海
    • OA办公自动化
    • 新品上市
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错