Hongkongdoll video-裸舞 推特 抖音集团何如巧用“数仓”降本
你的位置:Hongkongdoll video > 色哥网 > 裸舞 推特 抖音集团何如巧用“数仓”降本
裸舞 推特 抖音集团何如巧用“数仓”降本
发布日期:2025-01-04 17:22    点击次数:175

裸舞 推特 抖音集团何如巧用“数仓”降本

导读:跟着数据量的爆炸性增长,当代企业在数据存储、处理与分析上濒临广宽挑战。在 IT 架构中,数据仓库承担着企业中关节的数据存储和分析任务,要是不成高效运作裸舞 推特,必将导致资本飙升和决策效率低下。因此数据仓库的降本增效是企业IT部门不绝的命题。

动作面向及时数据处理的器具,OLAP(联机分析处理)系统能匡助企业充分挖掘数据价值、辅助决策。可是,OLAP 在追求高效数据分析的同期,经常难以均衡资本与效率矛盾。

快节拍的生意环境要求 OLAP 系统在保证数据准确性的前提下,尽可能镌汰数据处理和分析的期间。但高效的数据处理经常伴跟着更复杂的系统架构和更高的资源消费,企业需要插足腾贵的计较资源、做事器、存储资源等硬件资本以及普遍算法优化、运维、迁徙等软性资本。

01 问题与挑战

企业使用一款数据仓库居品,资本项不错分手显性资本与隐性资本:

1. 显性资本挑战

硬件资本:代表了部署数据仓库软件的所需的硬件资本,包括计较资源资本(CPU)与存储资源资本(磁盘、存储集群)。毫无疑问数据仓库波及 TB 致使 PB 级数据的存储与分析,对硬件的要求颇高。

性能资本:单元能效不高,导致在完成任务或处理数据时,需要配备更多的资源以弥补这一不及。一方面,在计较能效上,需要增多更多的高性能计较单元或优化现存的计较智商,以确保在合理的期间内完成复杂的计较任务,幸免处理速率的滞后;另一方面在存储能效上,需要部署更大容量的存储开拓以搪塞日益增长的数据量,同期减少能耗,提高数据存储和检索的效率。

2. 隐性资本挑战

运维资本:代表了运维数据仓库的东谈主力与期间资本。

数据仓库动作极其复杂的软件居品,对运维东谈主员的专科要乞降元气心灵消费自身极高。要是在数据系统中运行多款组件,如 ClickHouse、Elasticsearch、GreenPlum... 则会让复杂性指数级增多,运维东谈主员的妙技要求也指数级增多。

迁徙资本:代表了从旧的数据仓库或分析型数据库迁徙到 ByteHouse 的东谈主力与期间资本;

数据仓库之前的语法,架构互相当常极大,搬迁数据难于搬家,带来了极高的替换资本。

02 处分决策

1. 对于 ByteHouse

ByteHouse 是火山引擎数智平台VeDI旗下的一款云原生数仓居品,以 ClickHouse 技巧道路为基础,从 2017 年里面立项驱动,截止到 2022 年 3 月,ByteHouse 节点总和也曾达到了 18,000,最大的行动分析集群卓越了 2,400 个节点,数据量卓越 700PB。

ByteHouse 在架构上衔命新一代云原生理念,杀青了容器化、存储计较分离、多佃农顾问和读写分离等功能,同期提拔及时数据分析和海量数据离线分析,尤其对高隐隐、高并发、复杂查询等多种及时数据分析场景进行优化,能为用户提供极速分析体验。

ByteHouse 具备存储、计较分离,高弹性扩展的特色,其计较层选择 Shared-nothing 架构,存储层选择 Shared-everything 架构,能更好地救助计较和存储层的水平扩展。基于 ByteHouse 高性能的及时数据分析决策智商,数据从导入到分析决策仅需几秒,99% 的查询齐能获得秒级保险。除了高可用的基础智商,ByteHouse 还提供免托管运维做事,包括丰富的集群顾问器具、全面的系统监控智商,匡助企业松弛了解业务情状,让故障排查与问题会诊变得浅易。

2. 四招直击“降本之痛”

云原生数据仓库 ByteHouse 在架构、技巧、生态、和会四个方面上均能带来红利,能权贵地责骂显性资本与隐性资本。通过引入像 ByteHouse 这么“能省钱”的云原生数据库,企业或者在救助大规模数据查询的同期,灵验戒指硬件资本、迁徙资本与运维资本的插足,提高系统性能,杀青数据驱动的业务增长。

架构红利:ByteHouse 选择独有的存算分离架构,杀青了资源的高效诳骗和灵活扩展。这一架构处分了传统数据仓库在计较和存储资源上的紧耦合问题,使企业或者阐述骨子需求零丁扩展计较或存储资源,从而幸免了资源猝然。

技巧红利:在计较层面,ByteHouse 自研的查询优化器提高了多表查询性能,点查优化技巧则提高了系统的并发性能。在存储层面,通过分享对象存储、存储分级、数据压缩等极致优化,ByteHouse 进一步责骂了存储资本。

生态红利:ByteHouse 救助丰富的凹凸游生态,包括数据导入、加工器具、颐养器具、BI 器具以及言语 Driver 和开发器具等。同期,与 ClickHouse、MySQL 生态实足兼容,责骂了用户数据迁徙的门槛和额外资本。

和会红利:ByteHouse 和会了及时查询、团聚查询、东谈主群圈选、文本检索等种种场景,简化了企业的技巧栈顾问,责骂了运维资本。此外,在湖仓和会方面,ByteHouse 救助业界常见数据湖的外在连续样式,能杀青多种外在和 ByteHouse 内表的联邦查询,进一步提高了分析效率并责骂了数据冗孑遗储和转机资本。

03 架构红利

开首,ByteHouse 救助存算分离架构,亦然让 ByteHouse“更省钱”的蹙迫原因,存算分离通过更高效的资源分派和灵活的扩展样式,匡助企业在数据顾问和计较任务中灵验戒指资源资本并提高效率。

1. 资源诳骗率的瓶颈

传统的数据仓库常常使用无分享(shared-nothing)的架构,使得计较资源和存储资源是紧耦合的,因此集群时计较和存储资源的配比和容量就也曾固定,无法救助二者零丁扩缩容。这就意味着计较与存储必有一项存在资源猝然情况。

举例,当业务不需要太多计较资源,但存储的数据量激增,也需要新购普遍做事器;另一些情况下,一些集群的存储资源冗余,但 CPU 诳骗率很高,用户的查询体验差;且上述两种情况无法分享 CPU 与存储资源,收尾等于资源成倍猝然。

同期,传统的架构面对计较资源岑岭低谷,比如举例早上查询业务岑岭期,夜间ETL任务岑岭期,只可通过生硬的搀杂部署样式来搪塞;这种样式不够灵活,同期也可能会发生夜晚ETL任务未完成,影响上昼业务的情况,从而导致连环影响。

恰是基于上述痛点,ByteHouse 研发了存算分离的云原生新架构。

计较和存储分离架构

如上图所示,计较节点(VW)与数据存储(Data Storage)是顽固的。从计较节点的角度来看,他们将看到一个全局分享的数据池,即数据存储层。这意味着该池中的所荒芜据齐不错跨统统计较资源分享。

选择这种存算分离架构架构具有三大上风:

灵活的伸缩智商,因为计较资源和存储是分离的,它们不错阐述需求,对计较或存储资源零丁扩展。

无穷的可扩展性。由于数据是在存储层中分享的,表面上不错横向扩展以诳骗尽可能多的计较资源。

对于集群顾问者来说愈加友好,因为他们不需要顾虑数据一致性、数据副本和数据收费问题;统统这些齐不错拜托给云做事提供的数据存储层来杀青,如对象存储或 HDFS。

2. 基于存算分离的关节秉性

1. 计较顽固,按需购买

弹性计谋搪塞种种业务场景:当您领有多个计较组资源,每个计较组资源搪塞不同行务;当职责负载各不疏通期,用户不错阐述业务场景针对不同的计较组缔造不同的计谋;

2. 弹性计费,自动启停

ByteHouse 计较组自动启停计谋,匡助用户量入为出 ~20%+ 资本:当 VW 安逸卓越 5 分钟时,自动启停 会自动关闭集群,VW 在关闭期间不会产生任何用度。

3. 按需扩展,无损弹性

弹性扩展,灵活自动:阐述期间,资源负载等条目进行扩容/缩容成立;收缩手动顾问的背负,提高资源诳骗率。

量入为出资本:阐述骨子业务需求灵活调整计较资源规模,无需提前购买全部资源。

04 技巧红利

存算分离决定了举座架构的高效力,低资本。

但长远“存”和“算”的规模,ByteHouse 仍然有相等多的极致的技巧优化,让整个数据仓库“省上加省”。

1. 计较技巧上风

阐述 ByteHouse 性能白皮书的圭臬数据集性能参考,ByteHouse 性能比开源的 ClickHouse 强 40%-50%。性能提高意味着在疏通的查询单元算力下,ByteHouse 需要的算节点数目的减少,因此能带来资本的等比例责骂。

(如上图,开源 ClickHouse 在 TPC-DS 99 条查询中只可跑出 28 条 SQL,而 ByteHouse 能跑出 99 条,同期 ByteHouse 每一条齐更快)

假定在面前业务需求下,ClickHouse 需要 100 个节点来处理逐日的数据量。使用 ByteHouse 后,由于性能的提高,可能只需要 60-70 个节点。

那为何 ByteHouse 的性能如斯强健?有以下两个关节技巧点:

(1)多表查询性能优化

开首,ByteHouse 自研了查询优化器,使得多表查询性能出众。

ByteHouse 的查询优化器同期基于 CBO(基于代价优化) 与 RBO(基于规定优化):

语法救助:ClickHouse/ANSI/MySQL;

Join 优化:Join-Reorder,bucket join,Runtime filter ;

Filter 下推:多层嵌套下推。救助下推 join 子查询;

分散式诡计优化:将这单机版诡计和分散式诡计两个阶段和会在整个,在整个 CBO 寻求更优解的经过中寻求更优解。

(2)点查性能优化

其次,ByteHouse 救助多种点查优化技巧,提高了举座系统的并发性能:

救助事前注册查询模板,幸免对模版 sql 的分析和优化的支出;

救助使用 unique 引擎生成的内存中独一键索引;

优化 TopN 类型 SQL 模式(select column from {} where condition order by column limit 10; ),使数据读取量更少,查询更快:

大姨子

2. 存储技巧上风

(1)对象存储,优化资本

ByteHouse 的存储层基于分享对象存储,存储资本下落 10 倍;

资源按需计费,存储资源无限容量且弹性扩缩。

(2)存储分级,温冷顽固

温数据使用对象存储圭臬规格存储,冷数据使用对象存储深度存档规格存储;

温冷分层,存储资本进一步责骂 2~5 倍;

(3)数据压缩,极致优化

ByteHouse 救助 LZ4、ZSTD 等高效压缩算法,基于压缩算法下的存储资本再次责骂75%+;

05 生态红利

行业上有这么的说法,“客户价值=新址品价值-老居品价值-迁徙资本”。可见迁徙资本对于居品聘用是如斯的蹙迫,数据仓库这类重型居品,非论居品的架构、技巧何如优秀,迁徙资本是否豪阔低,仍然是能否豪阔“省钱”的中枢考量。

ByteHouse 搬迁 ClickHouse 生态、MySQL 生态齐相等丝滑,将迁徙资本降到最低。同期 ByteHouse 自身凹凸游生态丰富,易于集成进现存的坐褥系统。

1. 多元化生态

ByteHouse 救助丰富的凹凸游生态,包含种种数据导入加工器具,如 Flink,Spark,DataX,DataSail;种种颐养器具,如 Airflow,DophinScheduler,种种 BI 器具,如 Superset,Tableau,FineBI,DataWind,各言语 Driver,种种开发器具等等。便捷集成进每一个现存系统。

2. ClickHouse 生态兼容

ByteHouse 与 ClickHouse 23.3 主流的版块的语法、函数、客户端、驱动均兼容,况且救助 ClickHouse->ByteHouse 的迁徙器具,替换资本极低;

有诸多客户通过 ByteHouse 大规模替换了开源居品。举例在某头部股份制银行,已通过器具替换了卓越 200 个节点的 ClickHouse。

3. MySQL 生态兼容

MySQL 是市面上分析型数据库的普通兼容的一种语法之一。ByteHouse 原生兼容种种 SQL 语法,也自研救助了 90% 的 MySQL 语法,因此,从 MySQL 生态的数据库、数据仓库搬栈到 ByteHouse,现成 SQL 的修订量少,体验丝滑;

同期,ByteHouse 救助 Zero-ETL 的智商,不错将 MySQL 坐褥库的数据通过 Binlog 及时同步到 ByteHouse,举座数据延伸在分钟级别,杀青 AP-TP 的一体化。

06 和会红利

分析型数据库有一个须生常谭的问题:

种种技巧栈琳琅满目,各有长处,如 ClickHouse 善于宽表查询,HBase 善于点查,Kylin 善于集聚标的,ES 善于处分文分内析,还有 Presto,SparkSQL,Impala 等种种用于分析的组件。

为了处分种种的分析问题,从而聘用种种的底层技巧栈,进而导致的祥和资本激增。

ByteHouse 的智商全面,少有短板;因此,不错动作一个 All in One 的大一统云原生数仓,和会种种使用场景。

1. 多技巧栈和会

字节朝上在很多年前就遭受了上述问题。那时面对上亿的行动日记分析,业务冷漠了及时数据、离线数据、明细查询等业务需求,开首的处分决策是选择了 Druid,Apache Kylin,SparkSQL,Redis 比物丑类处分各个问题,但带来了种种技巧栈的学习资本,祥和数据一致性的资本,另外部分技巧栈如 Apache Kylin,SparkSQL 荒芜据彭胀问题,资源资本自身就很高。

如今,ByteHouse 的查询分析智商也曾袒护及时查询,团聚查询,东谈主群圈选,文本检索,向量检索,地舆检索等,且多场景下齐比开源更快。为多种不同行务场景提供了一致的使用体验。

2. 结伙运维

和会技巧栈后,不仅意味着丰富的场景下,只需要运维 ByteHouse 一种技巧栈,那也只需要学习一套学问体系,一种优化要领,一套排障计谋。

同期,ByteHouse 提供完善的自动化与可视化运维智商,比如大查询会诊,集群健康相貌盘,Schema 智能推选器具,自动化扩容器具等,进一步责骂运维资本。这就意味着在顾问数据库集群时,不再需要专诚的 DBA 团队来长远和会开源居品的旨趣,才智用好 ByteHouse。

对于 ByteHouse 的使用者而言,ByteHouse 能通过完善的居品运维体系,内行团队不绝提供专科的居品运维建议,能大幅责骂客户的东谈主力资本。

3. 湖仓和会

Databricks 等技巧公司于 2017 岁首次冷漠了“湖仓一体”的意见,并在之后巩固获得普通经受。湖仓一体架构的标的是将数据湖的灵活存储与数据仓库的高效查询和顾问功能筹商起来,提供一种结伙的架构,既能救助大规模数据存储,也能救助高性能数据分析。

湖仓一体架构不仅能提高分析效率,减少多分数据带来的不一致问题。同期也或者减少数据的冗孑遗储和转机资本,还不错责骂企业祥和多个系统的运维资本。

ByteHouse 也无礼插足了湖仓一体,开首 ByteHouse 救助业界常见数据湖的外在连续样式,包括 Hive,Hudi,Paimon,Iceberg(Q4),杀青多种外在和 ByteHouse 内表的联邦查询;

其次,面对外在分析性能有限的问题,ByteHouse 也救助 Zero-ETL 技巧,行将数据湖中的数据通过亏空视图,自动同步到数仓中,杀青透明加快。由优化器来辨识径直查询外在,如故查询仓内也曾落地的内表数据,这么更增进了湖仓查询体验的一致性。

湖仓和会也不错以为是 ByteHouse 存算分离架构的延续和扩展,不仅延续了存算分离在弹性和资本方面的上风,还在结伙数据处理和扩展性方面作念出了进一步的提高,成为当代数据处理架构中蹙迫的一环。

07 案例推行

1. 抖音集团告白集群上云业务:QPS 提高 35%,资本责骂 60%

业务布景:

抖音集团原先选择物理灵活作其里面基础样式,具有低软件冗余的上风。可是,在构建表层 ByteHouse 系统时,为了骄矜数据高可用性的需求,需要零丁研讨并践诺数据副本计谋,这径直导致了存储资源的双倍使用。面对这一挑战,抖音集团决定选择存算分离的架构进行优化,并随后决定将其业务系统上云。

处分决策:

上云后,抖音集团基于 ByteHouse 对象存储动作底层存储处分决策。对象存储自身具备高可用性和数据冗余秉性,即底层自动存储三份数据副本,以确保数据的耐久性和可靠性。这一秉性使得表层软件层无需再额外成立数据副本,从而简化了系统架构,减少了分片数和副本数。此外,尽管云上的假造机相对于物理机在单机资本(TCO)上可能略高,但云环境的弹性扩展、按需付费以及运维简化等上风为举座资本从简提供了可能。

最终成果:

通过 ByteHouse 存算分离架构和选择对象存储,抖音集团最终将举座资本责骂了 60%。此外,优化后的架构还提高了系统的灵活性和可扩展性,让业务 QPS 提高了 35%。

2. 抖音集团行动分析业务:仅需运维 1 套系统,100T 数据查询只消 5 秒

业务布景:

在面前的数据生态中,存在多种开源数据处分决策,如 ClickHouse、Doris、Apache Kylin 等,各自擅长不同的分析场景。这种种种性也带来了“烟囱林立”的问题,即每个处分决策齐像一座零丁的烟囱,道不同,枯竭结伙的顾问和整合。这导致使用者需要镇定多种不同的 SQL 语法和技巧栈,而运维团队则濒临更大的挑战,他们需要掌捏多种技巧栈的性能优化和问题排查要领。

在抖音集团里面,常常会用行动分析来救助其业务决策,包括用户行动转机分析、行动流图分析等,这些分析需要处理普遍的及时和离线数据。可是,由于之前使用了多种不同的开源架构来处分这些问题,如 Druid 用于及时刻析、Apache Kylin、Spark SQL 用于离线分析、Hbase 则用于明细查询。这些架构不仅存在各自的瓶颈,无法全面骄矜需求,且举座运维支出广宽。

处分决策:

迁徙到 ByteHouse 之后,由于 ByteHouse 能救助及时数据消费,并具备强健的查询智商,同期救助多个不同的查询维度,最多能达到 1000 列,大大卓越了之前使用的任何单一架构。

此外,ByteHouse 还提供了很多器具来匡助运维团队进行监控、集群顾问、SQL 优化等。这些器具使得运维团队或者更高效地顾问普遍的集群和做事器,同期责骂了对东谈主力插足的需求。

最终成果:

开首,ByteHouse 在性能方面发达出色,在 100TB 级别的数据量基础上,90% 的查询齐能在 5 秒钟独揽完成。

其次,迁徙到 ByteHouse 后,抖音集团将原来的 4 套系统整合为 1 套系统,大大责骂了运维团队的职责量和复杂度。运维团队不再需要镇定多种不同的技巧栈和 SQL 语法,只需要掌捏 ByteHouse 即可,提高运维效率,责骂运维资本。

终末,ByteHouse 提供的器具使得运维团队或者更高效顾问普遍的集群和做事器。在抖音集团里面,SRE 团队唯有 5 个东谈主,但共同顾问了 400 个集群和 18000 台做事器,大大提高东谈主效。

3. 某头部游戏企业迁徙案例:QPS 提高 200%,资本责骂 30%

业务布景:

某头部游戏厂商原先使用其他云做事商的数据分析居品,但在濒临业务增长和数据分析需求提高的布景下,无法骄矜性能和资本的需求,因而决定迁徙到火山引擎 ByteHouse。

处分决策:

迁徙前,该头部游戏厂商在云平台上部署了 896 个 CPU core,并发峰值仅能达到 15 万。迁徙至火山引擎后,该游戏厂商选择了更为高效和灵活的 ByteHouse 处分决策,获利于架构优化和高效处奢睿商,仅需 640 个 CPU 中枢就能杀青更高的并发处奢睿商,峰值并发量达到了 30 万。

此外,基于 ByteHouse 弹性伸缩智商,在寒暑假等岑岭期,该头部游戏厂商不错松弛扩容到 640 核以骄矜业务需求;而在非岑岭期,则不错缩容到 320 核,以督察与原云平台疏通的 15 万并发峰值,同期责骂资本。

最终成果:

通过迁徙到火山引擎 ByteHouse,该游戏厂商不仅杀青了资本的责骂,还权贵提高了数据处感性能。这种弹性使用的样式不仅骄矜了业务岑岭期的需求,还在非岑岭期灵验从简了资源资本,在做事器核数减少 30% 情况下,并发性能提高 2 倍。

08 结语

ByteHouse 通过独有的存算分离架构、自研的查询优化器以及存储层面的极致优化,为企业带来了权贵的“架构红利”和“技巧红利”。这些红利不仅体咫尺资源资本的大幅责骂上,更为企业提高了数据处理和分析效率。同期,ByteHouse 丰富的生态兼容性和强健的“和会红利”,进一步简化了企业的技巧栈顾问,责骂了运维资本,并为企业提供了愈加丰富和一体化的使用体验。

将来,ByteHouse 将链接聚焦降本增效,匡助更多企业加快数字化转型裸舞 推特,杀青数据驱动下的业务增长。