第1期-想玩就玩
2024第九届中国开源年会
介绍
首先来介绍一下什么是中国开源年会



中国开源年会 COSCon 是业界最具影响力的开源盛会之一,由开源社在2015年首次发起,而今年我们将迎来第九届 COSCon
以其独特定位及日益增加的影响力,COSCon 吸引了越来越多的国内外企业、高校、开源组织/社区的大力支持。与一般企业、IT 媒体、行业协会举办的行业大会不同,COSCon 具有跨组织、跨项目、跨社区的广泛覆盖面,也吸引了众多国内外开源开发者和开源爱好者的关注及参与。
经过广泛社区征集,以及开源社正式成员投票,COSCon’24 中国开源年会的主题已正式确定为「Open Source, Open Life|开源新生活」。
如今,开源和开放式协作的理念已经为现代社会带来越来越深远的影响和日益广泛的应用。开源不仅在推动着技术的创新,也无时不刻在促进着全球协作和全人类的知识共享,为教育、文化、商业和各个垂直领域带来了新的机会和变革。
开源年会
首先非常荣幸能有机会参加本次开源年会,并且和众多开源爱好者和各大开源项目owner一起交流开源知识与经验,交流开源项目的最新进展和架构体系以及未来发展规划
大会位置在中关村会议中心,北京的秋天是金黄的,叶子从上到下都是金黄色的,恰好会议当天是晴天,阳光很棒,照耀在水池中反射出片片磷光。
早上开始是会议主会场的开场演说,开场演说的时候因为我还没下火车所以错过了,但是大数据方向的分论坛内容是在下午开始的,和我正在做的方向和内容一致,所以参加分论坛才是我参加会议的重点
让我印象深刻的首先是doris3.0的存算分离架构的演讲,陈老师是doris的领先人物了,在目前的3.0版本的发布上也是主力。




doris之前的存算一体的结构,数据主要在BE上,多个BE节点采用了MPP分布式的计算架构,而在存算分离架构中,BE不再存储主数据,而是将共享存储层作为数据主存储空间,doris引入了计算节点本地高速缓存
FE主要存放元数据,job和权限等信息,计算层下BE是无状态的Doris的BE节点,BE会缓存一部分的元数据和数据提高查询的性能;计算组是由BE节点组合的计算资源集合,加了一个共享存储层,可以基于HDFS或者云存储,建表的时候选择表的数据库。
在doris3.0之前的版本的时代,网络带宽是很稀缺的资源,所以使用了存算一体的架构可以节省网络资源,但是目前这个时代,带宽已经不是一个稀缺资源了,所以将存算分离的架构作为doris新的架构体系,并且目前的很多企业将数据放在公有云上,目前doris3.0也支持了公有云的服务,可以按需使用计算资源,节约成本,而且不同业务之间可以做计算资源隔离,并且可以使用更低成本的对象存储,hdfs等这些低成本的存储,并且更好的支持冷数据和热数据,可以将冷数据放在成本更低的存储设备上,节约成本
由于本文是想玩就玩板块,所以对技术的详细内容不做过多的介绍,详细的关于大数据技术方面的介绍可以移步个人的另一个博客,该博客主要介绍技术相关内容
More info: 记昨日书


我们目前可以看到doris的第一阶段中包括了联邦查询分析的能力,具陈老师说doris目前的未来发展是正在往引擎方面做靠拢,在这里也期待doris的后续进展,社区人员的活跃度和参与度保证了开源项目的质量,我认为目前已经立于主流市场的doris一定会在未来中大放光芒
下面的内容是关于dinky的介绍,dinky的介绍是社区的负责人元老师这边来进行宣讲的
其实之前我并没有使用过dinky,但是对于他的图标小蜂鸟倒是很有印象,dinky是一个轻量级类似于ide的开发环境,主要是为flink sql和flink jar提供了一个编写环境,并且和ide一样可以对flink sql有补全的功能,也支持多种外部db sql的操作。
dinky秉承着“万物皆sql”的理念
dinky同时支持实时工具的运维,这个是我看到很欣喜的一个功能,目前对于任务的实时监控运维我正在使用华为云,但是华为云毕竟是收费的厂家,对于任务的上线下线,监控,集群信息,日志等等内容,之前也使用过dolphinscheduler,但是dolphinscheduler对于任务的运维功能还不够全面和强大,目前的dinky无论是对flink sql的支持还是对实时任务的运维,都让我发现了新的可行性
元老师同时还介绍了一种基于dinky来做的完整的生态链路,同时结合了主流数据胡paimon,dinky和paimon的新数据湖链路也让我们对这种新的架构有了新的思考
接下来是吕老师介绍的,flinkcdc中的Schema Evolution 与 Transform的特性
flink-cdc 3.0 重要特性:
- 通过yaml文件定义pipeline
- 能够感知schema变更
Schema Evolution 功能可以用于将上游的 DDL 变更事件同步到下游,例如创建新表、添加新列、重命名列或更改列类型、删除列、截断和删除表等。
作业配置示例,flink的transform特性可以进行更加灵活的数据处理:


接下来pulsar的内容也进行了存算分离的新架构信息介绍,将之前的存算一体架构改为了存算分离架构并且支持了云原生的消息队列,并且pulsar可以支持创建上百万个topic,这点是kafka无法支持的。kafka的由于限制在底层的架构感觉很难再往上更近一步做出存算分离内容,但是pulsar得力于产生的时代比较新,所以架构设计上面也就决定了他更高的上限
这里介绍几个使用pulsar的案例



第一天的最后是关于什么是大数据的介绍。
那么由于篇幅有限,后面的第二天的内容就不进行分享了,感兴趣的朋友一定要关注“开源社”,我在下一次开源大会等你哦~
这里不仅仅有大数据的会场,实际上分为了多个分会场,有web 3.0方向的,有rust方向的,有ai大模型方向的,有硬件方向的,还有专门的女性开源论坛等等分论坛应有尽有,选择合适自己的方向的分会场,去和志同道合的人一起学习最新的知识,分享交流经验,一起成长。
很感谢开源年会,不仅在学习到了知识的同时也获得了精美的礼品,衣服扇子毯子等等礼物,整整一个大袋子!非常非常nice了是
结束
这次的开源年会的分享到这里就结束啦,第二天还有很多的内容这里就不详细的描述了~最后的最后我想说一下我自己对大数据未来发展的一些想法:
虽然我也是做大数据方向的,但是不得不说我目前觉得数据量太大这个目前感觉并不是一个难点了,大数据刚刚出现的时候,人们觉得信息发展太快,数据太多,后续的数据存储和处理一定是一个需要考虑的方向,但是实际情况却是大量的数据分为冷数据和热数据,冷数据查询并不是一个经常查询的业务,大数据上真正满足业务的大数据好像并没有那么多,大数据存在的意义从数据的存储变成了数据的处理,开始面向分库分表,做数仓的方向,做etl,满足业务查询,又到了数据中台,用户画像,数据探查等等一系列根据数据做开发和做处理的方向。我承认数据肯定是有用的,我们需要把他们存放起来,但是这种场景真的很多吗,反而目前是做数据处理的内容更加的贴合业务。目前的大量数据乱而杂,我认为大数据的方向面向于数据治理,数据质量的方面更加的重要,也会是未来发展的一个方向,将脏乱杂的大量数据进行处理,构建血缘关系,数据矩阵,打破数据孤岛,让每一个数据都发挥真正的意义,而不是让各种冗余数据面对各种不同的业务。我一直认为这才是大数据的方向:质量 > 数量;不过这也是我自己的一些浅显的想法,具体还是需要看未来的发展如何,信息时代的信息太快了,如何实时快速处理,如何清洗脏数据,如何打破数据孤岛,如何构建业务数据矩阵,如何优化节约资源成本,这才是重中之重。