初识odps算法

January 17th, 2015

#初识ODPS算法 ODPS机器学习算法非常丰富，从功能角度可以划分为以下几大类：

##基本的统计、分析和处理基本统计包括直方图、协方差、连续变量分组统计、交叉表、排行榜等；统计分析包括对应分析、主成分分析（Principal Component Analysis, PCA）;数据处理包括数据过滤、采样、归一、合并、分箱等。

##回归分析是一种统计学数据分析方法，目的在于了解两个或者多个变量是否相关，并建立数学模型来观察感兴趣的变量。主要支持两种：线性回归和梯度渐近回归树。

##分类预测分类（Classification）是一种有监督的机器学习方法。利用已知类别的样本训练分类模型，为未知类别的样本预测类别。包括随机森林、逻辑回归、支持向量机（SVM）、朴素贝叶斯、Fisher判别和MDistance判别等。

##聚类分析聚类（Clustering）是一种无监督机器学习方法，只需要把相关的东西聚在一起，而不关心它是什么。因此聚类只需要计算相似度，不需要使用训练数据进行学习。最常用的聚类算法是KMeans(K均值类)。

##关联分析又称关联规则（Association Rules），是数据挖掘的重要课题，用于从大量数据中挖掘出有价值的数据项之间的关联关系，比如：“用户购买了产品A，她会购买产品B的可能性是多少？”关联规则的经典应用是购物篮分析（比如人们耳熟能详的啤酒和尿布案例），超市对顾客的购买记录进行关系规则挖掘，从而发现顾客的购买习惯，把相关商品放在一起，增加销量。比如协同过滤，下面介绍一个阿里的推荐算法。

###推荐算法eTREC 是阿里一淘推荐团队研发，其他多个团队共同参与实现的基于物品的协同过滤算法（Item-based Collaborative Filtering）的高效实现，上亿的user和item矩阵在20分钟左右计算完成，支持常用的以及自定义相似度计算方法，目前在阿里内部广泛使用，大幅提升了业务指标。

转载请注明出处 http://www.xiangguo.li/algorithm/2015/01/17/odps

Categories:

algorithm (2)

Tags:

相国 walter

一个热爱coding的青年

初识odps算法

Share Post

相国 walter