7月29日-31日,ApacheCon Asia 2022开源大会在线上盛大开启,来自传智教育Python+大数据学科的两位高级技术专家张敬存老师、赵晨杰老师,共同在会上发表了题为《大数据&Python生态在传智教育的实践和思考》的演讲,和与会者分享了传智教育对大数据&Python生态发展的思考、探索与实践历程。
据悉,ApacheCon Asia 2022是由Apache 软件基金会(ASF)组织的官方全球系列大会,作为久负盛名的开源盛宴,活动吸引了全球的开发者前来探讨开源技术、开源文化和开源理念。
今年的ApacheCon Asia 2022会议议程覆盖了数十个类别的Apache 项目内容,从流处理到消息队列、集成,从大数据到金融科技,从搜索再到Tomcat等都有涉及。
当前,大数据技术正在深刻的引领和改变着各个行业发展,而Apache 软件基金会(ASF)有着非常多的大数据项目,比如Hadoop, Hive, Spark, HBase, Kylin, Ozone, CarbonData, Doris, Cassandra, ZooKeeper,Hudi,Iceberg,Zeppelin,SeaTunnel(incubator) 等。也因此,本次大数据分论坛倍受业内关注。在会场中,开发者们共同探讨大数据的前沿技术趋势以及一线用户的实践经验、原理、架构分析等。
传智教育两位老师作为大数据领域的探索者和授业者,受邀分享了《大数据 Python&生态在传智教育的实践和思考》,并从大数据Python生态发展、传智教育基于大数据Python生态架构演变过程、大数据Python生态在传智教育落地实践、传智教育大数据Python生态的展望四个方面,深度解析了传智教育长期以来对大数据Python的技术理念、实践应用和发展。
大数据Python生态发展
传智教育认为,大数据Python生态的核心目标实际上围绕着两个关键字,分别是大数据和Python。
具体来讲无非两点,第一是将大数据的能力输出给Python用户,比如说Pyspark, 就相当于将spark的计算能力输出给了Python用户,进而就有了Pyspark这种组件。
其次要将Python生态分析计算的功能运行到大数据的组建上,进而提升Python生态对大数据问题的解决能力。
此外,使用Python语言来学习和应用大数据是非常具有优势的,大数据明星框架Spark首推使用Python语言进行开发。
传智教育基于大数据Python生态架构演变过程
赵老师结合传智教育的实际情况举例说,传智教育的线上平台业务线涉及100多个业务的看板,3000多个业务指标的分析,对于如此庞大的业务处理,传智教育采用了Python+大数据生态,从而实现整个数据的Pipeline来操作,同时通过实时数仓、用户画像和推荐系统等更好地为用户提供合适的产品。
实际业务中遇到很多困难,比如:用户咨询和学习行为的大幅上涨;各业务库和第三方系统的数据同步,采集同步;业务分析类需求查询效率低(使用分析库ADB查询效率仍然低下);智能推荐(针对个性化行为信息,如何实现个性化课程推荐)等。
传智教育基于上述痛点升级了架构,采用Pyflink生态,重新设计出适合业务大数据的一个技术架构,运用大数据Python生态的Pyflink实现ETL处理,实时数仓,实现用户画像和推荐等。
值得一提的是,上图所示的架构变迁V3.0中,从实时数仓、画像到推荐系统,都在整个传智教育的大数据平台,并首次引入 PyFlink,但是在使用过程中由于遇到了很多窗口的操作不支持问题,且当时PyFlink本身功能不完善,所以传智教育就开发了窗口及其他PyFLink算子相关功能,并贡献了十多个 PR 来帮助 PyFlink 变得更加成熟。
大数据Python生态在传智教育落地实践
传智教育在线上平台拥有多个学科,30多个就业模块课程,上百门小课,需要根据用户行为实时推荐小课和就业班课程,涉及首页推荐、热门推荐、猜你喜欢、搜索页好课推荐等,需要通过用户画像和推荐系统完成个性化推荐服务。
以用户画像落地实践为例,用户信息标签化,也就是抽取出一个平台用户的信息全貌,从而解决如何将数据转化为商业价值的问题,包括教育程度、职业、喜好等标签,以便全面了解用户信息,同时给推荐系统提供数据支持。
那该使用什么技术完成标签计算?
在传智教育大数据&Python生态中,会首先将标签进行分级,使用PyFlink技术栈完成人口属性下面的年龄、性别等四级标签计;商业属性中支付方式、客单价、有券必买等四级标签;行为属性中浏览时长、登录频率、访问频率等四级标签。
然后,通过PyFlink和PyAlink整合完成客户价值标签RFM、用户活跃度模型RFE、价值敏感度模型PSM、购买性别标签USG等,从而完成用户画像的咨询,以及后续课程、就业、出勤等10多个看板,1000多个四级标签构建。
展望传智教育大数据Python生态
最后,传智教育的高级技术专家赵晨杰老师,分享了大数据Python生态在传智教育的未来发展展望。
例如,在实时数仓方面,将借助于Python大数据生态完成 ,数据湖实时接入数据,Doris实时同步数据湖数据。
在用户画像方面,完善用户标签体系,增加挖掘类标签占比,丰富实时用户画像场景等。
在推荐系统方面,增加知识图谱推荐,结合强化学习实现精准推荐,预研Bert模型在推荐系统应用等。
传智教育相信在Apache 各类开源框架的应用下,传智教育的各类系统应用能越来越好,同时在实践的过程中,也能反哺系统功能,让框架更完整,实现更多的功能。
为了让更多的开发者在Apache社区学到大数据相关的前沿技术,传智教育现已联合Apache Hudi、Apache Doris、Apache Pulsar 等官方社区推出了完整的中文课程,给想要了解和使用这些技术的同学,提供一个快速入门的途径,也为开源社区贡献了自己的一份力量。
传智教育此次应邀出席ApacheCon Asia 2022开源大会,展现出领先于业内的高新技术开发及应用的实力,作为一直致力于培养高精尖数字化人才的职业教育集团,传智教育的教研优势非常明显,相信未来传智教育能在新技术场景化应用及数字化人才培养模式上带给行业更多前沿探索实践。