作业帮受邀参加Flink Forward Asia峰会 深度解析从0到1搭建实时计算平台
教育
教育 > 正文

作业帮受邀参加Flink Forward Asia峰会 深度解析从0到1搭建实时计算平台

日前,Flink Forward Asia 2021线上峰会举办,作为大数据技术的积累和深度践行者,作业帮受邀参加,大数据实时计算负责人张迎参会,并做了题为《作业帮基于Flink的实时计算平台实践》的分享。

Flink Forward Asia 峰会是由 Apache 官方授权,Apache Flink中文社区主持举办的会议。大会邀请了11 位行业领袖及开拓者组成议题评选委员会,并继续由阿里巴巴开源技术委员会负责人贾扬清担任主席。目前,Flink Forward Asia 已成为国内最大的 Apache 顶级项目会议之一,峰会首日流量峰值 PV 20W+、UV 10W+;实时观看量峰值 4.5W+。直播页累计 PV 100W+、UV 30W+,是 Flink 开发者和使用者的年度盛会。

从0到1搭建实时计算平台

随着物联网、机器学习等技术的推广,实时流式计算在一些领域得到充分的应用。尤其对于在线的应用场景,更加强调实时化。作业帮作为一家科技公司,在在线教育领域有着多年的深耕,也是最早开始探索实时计算的企业之一。

2020年,在线教育市场规模高速增长,数据实时计算的需求日益增加。早期所采用的SparkStreaming 作业的开发模式效率低、原有数据无法复用、数据质量更是无法保证。“我们的做法就是直接在在实时数仓方向应用 Flink SQL。”张迎介绍,并随着Flink作业的增加,从0到1搭建实时计算平台,目前已经支持了公司全部重要的业务线,计算部署在多个云的多个集群上。

以提效为核心 “规范” “易用”两把抓

面对激增的业务量,提高人效成为了首要需求。SQL可以提高开发人效,但是业务逻辑的复杂度还在,复杂业务逻辑写出来的DML很长。张迎说,这种情况下需要优化DAG才能达到理想效果,我们选择了统一合并到stream env下,拿到一个完整的transformation列表,然后生成Stream Graph提交。此外,还需要Table有比较好的分层和复用的能力,支持模版化的开发,这样可以快速地串联起来端到端的N个Flink作业。

FlinkSQL 开发简单高效,但是越简单越难以规范,因为可能写一段 SQL 只用两个小时,但是走一遍规范下来得半天。据张迎介绍,作业帮通过开发、需求管理编译、上线等三个维度进行全面规范,并且严防线下修改环节。搭建监控通路时,通过优化 KafkaConnector PrometheusReporter,用户就可以基于报警系统配置 Kafka 延迟、Checkpoint 失败这些报警。

当然,应用FlinkSQL之后,虽然确实简化了开发,但也面临一些问题,比如屏蔽了更多的技术细节。张迎谈到,未来,还需要做好平衡实时作业的成本及时效性,继续探索更多业务场景,比如流批一体,增强开发过程中的适配性。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载