#初识ODPS算法 ODPS机器学习算法非常丰富,从功能角度可以划分为以下几大类:

##基本的统计、分析和处理 基本统计包括直方图、协方差、连续变量分组统计、交叉表、排行榜等;统计分析包括对应分析、主成分分析(Principal Component Analysis, PCA);数据处理包括数据过滤、采样、归一、合并、分箱等。

##回归分析 是一种统计学数据分析方法,目的在于了解两个或者多个变量是否相关,并建立数学模型来观察感兴趣的变量。主要支持两种:线性回归和梯度渐近回归树。

##分类预测 分类(Classification)是一种有监督的机器学习方法。利用已知类别的样本训练分类模型,为未知类别的样本预测类别。包括随机森林、逻辑回归、支持向量机(SVM)、朴素贝叶斯、Fisher判别和MDistance判别等。

##聚类分析 聚类(Clustering)是一种无监督机器学习方法,只需要把相关的东西聚在一起,而不关心它是什么。因此聚类只需要计算相似度,不需要使用训练数据进行学习。最常用的聚类算法是KMeans(K均值类)。

##关联分析 又称关联规则(Association Rules),是数据挖掘的重要课题,用于从大量数据中挖掘出有价值的数据项之间的关联关系,比如:“用户购买了产品A,她会购买产品B的可能性是多少?”关联规则的经典应用是购物篮分析(比如人们耳熟能详的啤酒和尿布案例),超市对顾客的购买记录进行关系规则挖掘,从而发现顾客的购买习惯,把相关商品放在一起,增加销量。比如协同过滤,下面介绍一个阿里的推荐算法。

###推荐算法eTREC 是阿里一淘推荐团队研发,其他多个团队共同参与实现的基于物品的协同过滤算法(Item-based Collaborative Filtering)的高效实现,上亿的user和item矩阵在20分钟左右计算完成,支持常用的以及自定义相似度计算方法,目前在阿里内部广泛使用,大幅提升了业务指标。

转载请注明出处 http://www.xiangguo.li/algorithm/2015/01/17/odps

Categories: Tags:

相国 walter

一个热爱coding的青年

blog comments powered by Disqus