最近人工智能或者机器学习的强势兴起,尤其是刚过去的AlphaGo和韩国棋手李世石九段的人机大战,再度让我们领略到了人工智能或机器学习技术的极大潜力,同时也深深地感受到了我。面临这一前所未有的技术大变革,作为10多年以来仍然专门从事统计资料机器学习一线教学与研究的学者,期望借此机会和大家共享我个人的一些思维和反省。
我的演说主要包括两部分,在第一部分,首先辩论机器学习所蕴藏的内在本质,尤其是它和统计学、计算机科学、生物科技优化等学科的联系,以及它和工业界、创业界相辅相成的关系。在第二部分,试图用“多级”、“自适应”以及“平均值”等概念来简洁纷繁多彩的机器学习模型和计算方法背后的一些研究思路或思想。
第一部分:总结和反省 1、什么是机器学习 毋庸置疑,大数据和人工智能是当今是尤为时髦的名词,它们将为我们未来生活带给深刻印象的变革。数据是燃料,智能是目标,而机器学习是火箭,即通向智能的技术途径。机器学习大师MikeJordan和TomMitchell指出机器学习是计算机科学和统计学的交叉,同时是人工智能和数据科学的核心。
“Itisoneoftodayrsquo;srapidlygrowingtechnicalfields,lyingattheintersectionofcomputerscienceandstatistics,andatthecoreofartificialintelligenceanddatascience”---M.I.Jordan 通俗地说道,机器学习就就是指数据里面挖掘出简单的价值。数据本身是杀的,它无法自动呈现简单的信息。怎么样才能找到有价值的东西呢?第一步要给数据一个抽象化的回应,接着基于回应展开建模,然后估算模型的参数,也就是计算出来,为了应付大规模的数据所带给的问题,我们还必须设计一些高效的构建手段。
我把这个过程说明为机器学习相等矩阵+统计资料+优化+算法。首先,当数据被定义为一个抽象化的回应时,往往构成一个矩阵或者一个图,而图只不过也是可以解读为矩阵。统计资料是建模的主要工具和途径,而模型解法大多被定义为一个优化问题,尤其是,频率统计资料方法只不过就是一个优化问题。
当然,贝叶斯模型的计算出来涉及随机抽样方法。而之前说道到面临大数据问题的明确构建时,必须一些高效的方法,计算机科学中的算法和数据结构里有不少好的技巧可以协助我们解决问题这个问题。 糅合Marr的关于计算机视觉的三级论定义,我把机器学习也分成三个层次:初级、中级和高级。
初级阶段是数据提供以及特征的萃取。中级阶段是数据处理与分析,它又包括三个方面,首先是应用于问题导向,非常简单地说道,它主要应用于有数的模型和方法解决问题一些实际问题,我们可以解读为数据挖掘;第二,根据应用于问题的必须,明确提出和发展模型、方法和算法以及研究承托它们的数学原理或理论基础等,我解读这是机器学习学科的核心内容。
第三,通过推理小说超过某种智能。最后,高级阶段是智能与理解,即构建智能的目标。从这里,我们看见,数据挖掘和机器学习本质上是一样的,其区别是数据挖掘更加短路于数据库末端,而机器学习则更加相似于智能末端。
2、统计资料与计算出来 机学家一般来说具备强劲的计算能力和解决问题的直觉,而统计学家精于理论分析,具备强劲的建模能力,因此,两者有很好的互补性。 Boosting,SVM和稠密自学是机器学习界也是统计资料界,在近十年或者是将近二十年来,最活跃的方向,现在很难说谁比谁在其中做到的贡献更大。比如,SVM的理论只不过很早以前被Vapnik等明确提出来了,但计算机界发明者了一个有效地的解法算法,而且后来又有十分好的构建代码被相继开源给大家用于,于是SVM就变为分类算法的一个基准模型。
再行比如,KPCA是由计算机学家明确提出的一个非线性降维方法,只不过它等价于经典MDS。而后者在统计资料界是很早已不存在的,但如果没计算机界从新发现,有些好的东西有可能就被显露了。
机器学习现在已沦为统计学的一个主流方向,许多知名统计资料系由争相聘用机器学习领域的博士为教员。计算出来在统计资料早已显得更加最重要,传统多元统计分析是以矩阵为计算出来工具,现代高维统计资料则是以优化为计算出来工具。
另一方面,计算机学科开办高级统计学课程,比如统计学中的核心课程“经验过程”。
本文关键词:机器,学习,大阳城游戏官方网站,统计,与,计算,之恋,最近,人工智能
本文来源:大阳城游戏官方网站-www.lifesciencesag.com