您现在的位置:主页 > 118kj手机看开奖 > 正文内容

超50万行代码 腾讯重磅发布全栈机器学习平台Angel 30

发布日期:2019-09-01 04:56   来源:未知   阅读:
 

  为了让整个系统更加的智能,Angel 3.0新增了超参数调节的功能,目前支持3种算法:

  。Angel (是基于参数服务器架构的分布式计算平台,致力于解决稀疏数据大模型训练以及大规模图数据分析问题,它由腾讯与北京大学联合研发,兼顾了工业界的高可用性和学术界的创新性。

  Angel是腾讯开源的大规模分布式机器学习平台,专注于稀疏数据高维模型的训练。目前Angel是Linux深度学习基金会孵化项目,相比于TensorFlow, PyTorch和Spark等业界同类平台,她有如下特点:

  ,它具有灵活的可定制函数PS Function(PSF),可以将部分计算下推至PS端。PS架构良好的横向扩展能力让Angel能高效处理千亿级别的模型。

  ,性能可达breeze数学库的10倍以上。Angel的PS和内置的算法内核均构建在该数学库之上。

  (如社交网络分析)。图1是Angel和几个业界主流平台在稀疏数据,模型维度,性能表现,深度模型和生态建设几个维度的对比。Tensorflow和PyTouch在深度学习领域和生态建设方面优势明显,但在稀疏数据和高维模型方面的处理能力相对不足,而Angel正好与它们形成互补,3.0版本推出的PyTorch On Angel尝试将PyTorch和Angel的优势结合在一起。

  Angel PS提供了高效,稳定和灵活的参数存储和交换服务。在3.0版本中,我们对Angel PS功能进行了扩展,使得它可以存储任意类型的对象,一个典型的例子是在图算法的实现过程中,我们使用Angel PS来存储了大量复杂的对象。

  MLcore是Angel自研的一套算法内核,它支持自动求导,可以使用JSON配置文件定义和运行算法。除此之外,在3.0版本中,Angel还集成了PyTorch作为计算引擎。在计算引擎层之上是计算框架,它们可以看作计算引擎的容器,目前支持3种计算框架:原生的Angel,Spark On Angel(SONA)和PyTorch On Angel(PyTONA),这些计算框架可以使得Spark和PyTorch用户可以无缝切换到Angel平台。最上层是两个公共组件:AutoML和模型服务。

  如图3所示,在过去12个月,Angel在腾讯内部的任务数量有了非常明显的增长,增幅达到150%。值得一提的是,Spark On Angel的任务数增长了10倍,为了让Spark On Angel更加的易用,3.0版本对Spark On Angel做了大幅度升级。在腾讯内部,使用Angel的业务包括腾讯视频,腾讯新闻和微信等。

  从1.0到3.0,Angel发生了巨大的变化,它从一个单一的模型训练平台发展到涵盖机器学习各个流程,包含自己生态的通用计算平台,代码量也超过了50万行。为了后续维护和使用的方便,Angel拆分成8个子项目,统一放在Angel-ML目录下():angel,PyTorch On Angel,sona,serving,automl,mlcore,math2和format,这些子项目会在下文详细介绍。

  Angel的特征工程模块基于Spark开发,增强了Spark的特征选择功能,同时使用特征交叉和重索引实现了自动特征生成。这些组件可以无缝地整合进Spark的流水线。为了让整个系统更加的智能,Angel 3.0新增了超参数调节的功能,目前支持3种算法:随机搜索,网格搜索和贝叶斯优化。在模型服务方面,Angel 3.0提供了一个跨平台的组件Angel Serving, Angel Serving不仅可以满足Angel自身的需求,还可以为其他平台提供模型服务。

  在生态方面,Angel也尝试将PS能力赋能给其他的计算平台,目前已经完成了Spark On Angel和PyTorch On Angel两个平台的建设。这两个平台各有优势和侧重, Spark On Angel使用的是Angel内置的算法核心,主要负责常见推荐领域的机器学习算法和基础图算法。PyToch On Angel使用PyTorch作为计算核心,主要负责推荐领域深度学习算法和图深度学习算法。

  特征工程,例如特征交叉和选择,对于工业界的机器学习应用具有重要意义。Spark提供了一些特征选择算子,但是仍有一些局限性。Angel基于Spark提供了更多的特征选择算子:

  在Angel 3.0中,我们对Spark On Angel做了大幅度的优化,添加了下面这些新的特性:

  从图9中可以看出,Spark On Angel中的算法与Spark中的算法存在显著的不同,如:基于Spark On Angel的算法主要是针对推荐和图领域,然而Spark中的算法更通用。

  ·定义一个Angel模型并以Spark的参数设置方式为其设置参数。在这个示例中,算法是一个通过JSON定义的计算图

  在训练完成后,Spark On Angel将会展示多种模型指标,如:准确率, ROC 曲线, AUC等。用户可以保存训练好的模型以便下次使用。

  PyTorch On Angel是Angel 3.0新增的特性,它主要是为了解决大规模图表示学习和深度学习模型训练问题。

  在过去几年时间,图卷积神经网络(GNN)快速发展,一系列的研究论文以及相关的算法问世:例如GCN,GraphSAGE和GAT等,研究和测试结果表明,它们能够比传统图表示学习更好的抽取图特征。腾讯拥有庞大的社交网络(QQ和微信),同时拥有大量对图数据进行分析的需求,而图表示学习正是这些分析的基础,因此腾讯内部对GNN有着强烈的需求,这也是我们开发PyTorch On Angel的主要原因之一。

  大规模图的表示学习面临着两个主要的挑战:第一个挑战来自于超大规模图结构的存储以及访问,这要求系统不仅能存得下,还需要提供高效的访问接口,例如需要提供高效的访问任意节点的两跳邻居的接口;第二个挑战来自于GNN计算过程,它需要有高效的自动求导模块。

  :存储模型参数,图结构信息和节点特征等,并且提供模型参数和图相关数据结构的访问接口,例如需要提供两跳邻接访问接口

  :中央控制节点,负责计算任务的调度和一些全局的控制功能,例如发起创建矩阵,初始化模型,保存模型,写checkpoint以及恢复模型命令

  :读取计算数据,同时从PS上拉取模型参数和网络结构等信息,然后将这些训练数据参数和网络结构传给PyTorch,PyTorch负责具体的计算并且返回梯度,最后Spark Worker将梯度推送到PS更新模型当然,这些细节都是封装好的,算法开发人员和用户并不需要了解。在PyTorch On Angel平台上开发新算法,只需要关注算法逻辑即可,与开发单机的PyTorch算法并没有太大区别。下面给出一个2层GCN算法的实现例子:

  由于结合了PyTorch和Angel的优点,PyTorch On Angel在算法性能方面有很大的优势:对于推荐领域常见的深度学习算法,性能可以达到TensorFlow的4倍以上;对于GNN算法,性能也远好于目前业界开源的同类型平台(具体的性能数据会在开源社区陆续公开)。下图是在公开的数据集criteo kaggle2014(4500万训练样本,100w特征)上做的对比测试:

  :网格搜索将整个搜索空间切分为网格,假设超参数是同等重要的。这种方式虽然直观,但有两个明显的缺点:1)计算代价随参数数量的增长而呈指数增长;2)超参数的重要程度常常是不同的,网格搜索可能会花费太多精力来优化不太重要的超参数

  随机采样超参数组合,并评估抽样组合。虽然这种方法有可能关注更重要的超参数,但是仍无法保证找到最佳组合

  贝叶斯优化与传统的无模型方法不同,使用计算成本较低的代理函数(surrogate function)来近似原始目标函数。在贝叶斯优化中,代理函数生成超参数组合的概率均值和方差。然后,效用函数(acquisition function)将评估超参数组合的预期损失或改进。这样的概率解释方法使贝叶斯优化能够使用少得多的开销找到目标函数的较优解。

  Angel 3.0包括传统的两种方法和贝叶斯算法优化。对贝叶斯优化,Angel实现了以下的功能:

  。除了常用的两种模型(高斯过程和随机森林),也实现了EM + LBFGS优化高斯过程内核函数中的超参数

  表2是在逻辑回归算法的实验,调节的超参数是学习速度和学习速度衰减率,结果显示贝叶斯优化的性能优于随机搜索和网格搜索,而随机搜索的结果略优于网格搜索

  为了满足在生产环境中高效地进行模型服务的需求,我们在Angel 3.0中实现了Angel Serving子系统,它是一个可拓展性强、高性能的机器学习模型服务系统,是全栈式机器学习平台Angel的上层服务入口,使Angel生态能够形成闭环。图16展示了Angel Serving的架构设计。

  2)Angel Serving是一个通用的机器学习服务框架,可插拔机制设计使得来自其他第三方机器学习平台的模型可以很容易使用Angel Serving来服务,目前已经支持三种平台的模型:Angel,PyTorch和支持PMML模型格式的平台(Spark、XGBoost等);

  3)受TensorFlow Serving的启发,Angel Serving还提供细粒度版本控制策略:包括使用模型的最早,最新以及指定版本进行服务;

  上图所示是腾讯短视频部门的一个使用案例。用户的视频播放日志和上下文信息被实时转发给Kafka,流数据引擎Storm订阅Kafka的数据。Storm是一个实时的特征生成器,它从一个离线的key-value存储中获得用户画像和视频信息,将两者拼接起来生成特征。生成的特征被传输到在线训练系统中来更新在线模型;同时,这些特征也被转存到HDFS作为离线训练的输入。离线模型通常用来初始化在线训练系统,当出现异常时,离线模型还可以用来重置在线系统。本案例用到的推荐算法是FM,训练样本24亿条,特征维度为63611,在Spark上训练耗时10多个小时,应用Angel后减少至1小时。

  · 交易关系:用户A和用户B之间如存在交易关系表明他们之间曾出现过交易行为

  · 设备关系:用户A和用户B之间如存在设备关系表明他们曾共享过同一个设备

  · Wi-Fi关系:用户A和用户B之间如存在Wi-Fi关系表明他们曾通过一个Wi-Fi连接到互联网

  金融诈骗者通常共享设备和Wi-Fi,通过扩展边缘关系生成社区。Angel上的fast unfolding算法可以有效地发现这些社区。下游的欺诈风险模型可以将这些社区的用户画像和网络特征作为输入来学习和推到反欺诈策略。该图数据包含15亿个节点和200亿条边,基于Spark GraphX的实现耗时20小时,而Angel仅需5小时。

  除了腾讯和小米,还有很多大大小小的互联网公司将总部设在北京,也使得北京成为全国拥有互联网公司最多的城市,成为互联网之都。详细

  来自华尔街,去年回国的某数字货币交易团队向交易门透露,称他们已开始利用其积累的专业量化交易技术应用到国内的相关鞋交所中。已交易资金收益率高达月化收益70%。详细