美团图灵机器学习平台在长期的优化实践中,积累了一系列独特的优化方法。本文主要介绍了图灵机器学习平台在内存优化方面沉淀的优化技术,我们深入到源码层面,介绍了Spark算子的原理并提供了最佳实践。希望为读者带来一些思路上的启发。
2025年08月07日
美团图灵机器学习平台在长期的优化实践中,积累了一系列独特的优化方法。本文主要介绍了图灵机器学习平台在内存优化方面沉淀的优化技术,我们深入到源码层面,介绍了Spark算子的原理并提供了最佳实践。希望为读者带来一些思路上的启发。
2025年08月07日
接上一期,key-value 类型算子。
函数签名
def foldByKey(zeroValue: V)(func: (V, V) => V): RDD[(K, V)]
2025年08月07日
行动算子触发作业执行的方法。底层代码调用的环境对象的 runJob 方法。底层代码中会创建 ActiveJob,并提交。与转换算子不同,行动算子直接出结果。而转换算子只是将 RDD 转换成 RDD,并不触发底层的任务执行。以 collect() 算子为例,collect() 源码中包含 runJob() 方法。
2025年08月07日
def filter(f: T => Boolean): RDD[T]
函数说明
将数据根据指定的规则进行筛选过滤,符合规则的数据保留,不符合规则的数据丢弃。当数据进行筛选过滤后,分区不变,但是分区内的数据可能不均衡,生产环境下,可能会出现