如何评价aiai challenger 比赛比赛

你似乎来到了没有知识存在的荒原...
来源链接是否正确?用户、话题或问题是否存在?天池赛冠军李翔分享报名 | Stacking:从集成学习到独立模型
天池赛冠军李翔分享报名 | Stacking:从集成学习到独立模型
AI Challenger全球AI挑战赛正在火热报名中,同时AI Challenger参赛大神团(包含Kaggle、天池、ImageNet、腾讯赛、京东赛、中兴赛、滴滴赛等冠亚军及TOP排名选手)将会每周带来分享。本周日(9月24日)晚,量子位将携手AI Challenger全球AI挑战赛为大家带来技术与竞赛线上分享:Stacking:从集成学习到独立模型嘉宾介绍李翔南京理工大学PCALab_DeepInsight组博士在读,师从长江学者杨健教授。博士期间曾在Sensetime商汤科技、MSRA微软亚洲研究院、Momenta无人驾驶初创公司实习。曾获得过天池首届大数据竞赛冠军和滴滴首届大数据竞赛冠军。内容简介Stacking:0) Ensemble Methods分两个阶段,一阶段预测复用为二阶段特征一阶段特征 X 不再进入二阶段1) Ensemble Examples-) Stack NN分多阶段,i 阶段预测复用为 i+1 阶段补充特征每个阶段特征进行堆叠-) Stack Tree分二阶段,一阶段用子特征群做预测并复用为二阶段补充特征-) Stack K-fold分二阶段,一阶段用K-fold做预测并复用为二阶段特征2) Individual Examples-) Stack CNN for image recognition不分阶段,end2end训练每个层特征进行堆叠活动详情活动时间:周日(9月24日)晚20:00开始参与方式:微信群语音分享添加AI Challenger小助手:aiczhushou,并备注“量子位”,通过后在活动开始前会邀请入群AI ChallengerAI Challenger全球AI挑战赛,由创新工场、搜狗今日头条于今年8月14日正式发布,9月4日开始比赛,12月3日初赛结束,12月中旬大赛主赛道各项竞赛的最终榜单排名前五的团队及其指导老师将受邀到现场进行决赛(答辩)并参加颁奖典礼。AI Challenger为参赛者提供:最大国内科研数据集,包括计算机视觉、自然语言处理、机器学习领域的千万量级数据集,以及将陆续上线的更多科研数据集大赛奖金超200万,还有更多参与性强的实验赛道免费GPU资源,大赛将努力为条件有限的选手提供免费GPU资源的支持,帮助选手圆梦AI与全球AI人才交流,参赛选手均来自世界各地高校、公司,还有众多国际顶级赛事冠军和优胜者顶级专家评委的指导,更有机会进入三家主办方工作、实习或获得投资关于AI Challenger更多详情请点击“阅读原文”—完加入社群量子位AI社群8群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot3入群;此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。进群请加小助手微信号qbitbot3,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)诚挚招聘量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。量子位QbitAI''
追踪AI技术和产品新动态
本文仅代表作者观点,不代表百度立场。系作者授权百家号发表,未经许可不得转载。
百家号 最近更新:
简介: 追踪AI技术和产品新动态
作者最新文章&img src=&/50/v2-06b36f9c6edf2a241ca16bdc_b.jpg& data-rawwidth=&3957& data-rawheight=&2892& class=&origin_image zh-lightbox-thumb& width=&3957& data-original=&/50/v2-06b36f9c6edf2a241ca16bdc_r.jpg&&&blockquote&本文从最基础的概率论到各种概率分布全面梳理了基本的概率知识与概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识。&/blockquote&&p&&br&&/p&&h2&简介&/h2&&p&在本系列文章中,我想探讨一些统计学上的入门概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识,所以我们开始吧。&/p&&p&第一部分将会介绍概率论基础知识。&/p&&p&&br&&/p&&p&&b&概率&/b&&/p&&p&我们已经拥有十分强大的数学工具了,为什么我们还需要学习概率论?我们用微积分来处理变化无限小的函数,并计算它们的变化。我们使用代数来解方程,我们还有其他几十个数学领域来帮助我们解决几乎任何一种可以想到的难题。&/p&&p&难点在于我们都生活在一个混乱的世界中,多数情况下无法准确地测量事物。当我们研究真实世界的过程时,我们想了解许多影响实验结果的随机事件。不确定性无处不在,我们必须驯服它以满足我们的需要。只有如此,概率论和统计学才会发挥作用。&/p&&p&如今,这些学科处于人工智能,粒子物理学,社会科学,生物信息学以及日常生活中的中心。&/p&&p&如果我们要谈论统计学,最好先确定什么是概率。其实,这个问题没有绝对的答案。我们接下来将阐述概率论的各种观点。&/p&&p&&b&频率&/b&&/p&&p&想象一下,我们有一枚硬币,想验证投掷后正反面朝上频率是否相同。我们如何解决这一问题?我们试着进行一些实验,如果硬币正面向上记录 1,如果反面向上记录 0。重复投掷 1000 次并记录 0 和 1 的次数。在我们进行了一些繁琐的时间实验后,我们得到了这些结果:600 个正面(1)和 400 反面(0)。如果我们计算过去正面和反面的频率,我们将分别得到 60%和 40%。这些频率可以被解释为硬币出现正面或者反面的概率。这被称为频率化的概率。&/p&&p&&b&条件概率&/b&&/p&&p&通常,我们想知道某些事件发生时其它事件也发生的概率。我们将事件 B 发生时事件 A 也发生的条件概率写为 P(A | B)。以下雨为例:&/p&&ul&&li&打雷时下雨的概率有多大?&/li&&li&晴天时下雨的概率有多大?&/li&&/ul&&img src=&/50/v2-6447fbabbf0e38c48efdf893fb762b10_b.jpg& data-rawwidth=&640& data-rawheight=&640& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/50/v2-6447fbabbf0e38c48efdf893fb762b10_r.jpg&&&p&从这个欧拉图,我们可以看到 P(Rain | Thunder)= 1 :当我们看到雷声时,总会下雨(当然,这不完全正确,但是我们在这个例子中保证它成立)。&/p&&p&P(Rain | Sunny)是多少呢?直觉上这个概率很小,但是我们怎样才能在数学上做出这个准确的计算呢?条件概率定义为:&/p&&img src=&/50/v2-a938ee1b902dd5bd12bcbe_b.jpg& data-rawwidth=&570& data-rawheight=&108& class=&origin_image zh-lightbox-thumb& width=&570& data-original=&/50/v2-a938ee1b902dd5bd12bcbe_r.jpg&&&p&换句话说,我们用 Rain 且 Sunny 的概率除以 Sunny 的概率。&/p&&p&&br&&/p&&p&&b&相依事件与独立事件&/b&&/p&&p&如果一个事件的概率不以任何方式影响另一个事件,则该事件被称为独立事件。以掷骰子且连续两次掷得 2 的概率为例。这些事件是独立的。我们可以这样表述&/p&&img src=&/50/v2-cf79eddf71ec891f72c83e36a6fe3e39_b.jpg& data-rawwidth=&550& data-rawheight=&76& class=&origin_image zh-lightbox-thumb& width=&550& data-original=&/50/v2-cf79eddf71ec891f72c83e36a6fe3e39_r.jpg&&&p&但是为什么这个公式可行?首先,我们将第一次投掷和第二次投掷的事件重命名为 A 和 B,以消除语义影响,然后将我们看到的两次投掷的的联合概率明确地重写为两次投掷的单独概率乘积:&/p&&img src=&/50/v2-941dbfd9bb57d4674468e_b.jpg& data-rawwidth=&472& data-rawheight=&79& class=&origin_image zh-lightbox-thumb& width=&472& data-original=&/50/v2-941dbfd9bb57d4674468e_r.jpg&&&p&现在用 P(A)乘以 P(B)(没有变化,可以取消)并重新回顾条件概率的定义:&/p&&img src=&/50/v2-a2b859b0ed1ea3_b.jpg& data-rawwidth=&530& data-rawheight=&102& class=&origin_image zh-lightbox-thumb& width=&530& data-original=&/50/v2-a2b859b0ed1ea3_r.jpg&&&p&如果我们从右到左阅读上式,我们会发现 P(A | B) = P(A)。这就意味着事件 A 独立于事件 B!P(B)也是一样,独立事件的解释就是这样。&/p&&p&&br&&/p&&p&&b&贝叶斯概率论&/b&&/p&&p&贝叶斯可以作为一种理解概率的替代方法。频率统计方法假设存在我们正在寻找的模型参数的一个最佳的具体组合。另一方面,贝叶斯以概率方式处理参数,并将其视为随机变量。在贝叶斯统计中,每个参数都有自己的概率分布,它告诉我们给已有数据的参数有多种可能。数学上可以写成&/p&&img src=&/50/v2-6ad6dda9f339efa341a08a_b.jpg& data-rawwidth=&415& data-rawheight=&66& class=&content_image& width=&415&&&p&这一切都从一个允许我们基于先验知识来计算条件概率的简单的定理开始:&/p&&img src=&/50/v2-cbe983cfc295a20ec1479bb_b.jpg& data-rawwidth=&632& data-rawheight=&171& class=&origin_image zh-lightbox-thumb& width=&632& data-original=&/50/v2-cbe983cfc295a20ec1479bb_r.jpg&&&p&尽管贝叶斯定理很简单,但它具有巨大的价值,广泛的应用领域,甚至是贝叶斯统计学的特殊分支。有一个关于贝叶斯定理的非常棒的博客文章,如果你对贝叶斯的推导感兴趣---这并不难。&/p&&p&&br&&/p&&p&&b&抽样与统计&/b&&/p&&p&假设我们正在研究人类的身高分布,并渴望发表一篇令人兴奋的科学论文。我们测量了街上一些陌生人的身高,因此我们的测量数据是独立的。我们从真实人群中随机选择数据子集的过程称为抽样。统计是用来总结采样值数据规律的函数。你可能见过的统计量是样本均值:&/p&&img src=&/50/v2-568f7e4ec9ffc6f8ec7b3db_b.jpg& data-rawwidth=&460& data-rawheight=&111& class=&origin_image zh-lightbox-thumb& width=&460& data-original=&/50/v2-568f7e4ec9ffc6f8ec7b3db_r.jpg&&&p&另一个例子是样本方差:&/p&&img src=&/50/v2-e1c764ebcefcfd49acbd2fd2dfa4ef6c_b.jpg& data-rawwidth=&489& data-rawheight=&121& class=&origin_image zh-lightbox-thumb& width=&489& data-original=&/50/v2-e1c764ebcefcfd49acbd2fd2dfa4ef6c_r.jpg&&&p&这个公式可以得出所有数据点偏离平均值的程度。&/p&&p&&br&&/p&&h2&分布&/h2&&p&什么是概率分布?这是一个定律,它以数学函数的形式告诉我们在一些实验中不同可能结果的概率。对于每个函数,分布可能有一些参数来调整其行为。&/p&&p&当我们计算硬币投掷事件的相对频率时,我们实际上计算了一个所谓经验概率分布。事实证明,世界上许多不确定的过程可以用概率分布来表述。例如,我们的硬币结果是一个伯努利分布,如果我们想计算一个 n 次试验后硬币正面向上的概率,我们可以使用二项式分布。&/p&&p&引入一个类似于概率环境中的变量的概念会方便很多--随机变量。每个随机变量都具有一定的分布。随机变量默认用大写字母表示,我们可以使用 ~ 符号指定一个分布赋给一个变量。&/p&&img src=&/50/v2-5d6da157d_b.jpg& data-rawwidth=&426& data-rawheight=&80& class=&origin_image zh-lightbox-thumb& width=&426& data-original=&/50/v2-5d6da157d_r.jpg&&&p&上式表示随机变量 X 服从成功率(正面向上)为 0.6 的伯努利分布。&/p&&p&&br&&/p&&p&&b&连续和离散概率分布&/b&&/p&&p&概率分布可分为两种:离散分布用于处理具有有限值的随机变量,如投掷硬币和伯努利分布的情形。离散分布是由所谓的概率质量函数(PMF)定义的,连续分布用于处理连续的(理论上)有无限数量的值的随机变量。想想用声音传感器测量的速度和加速度。连续分布是由概率密度函数(PDF)定义的。&/p&&p&这两种分布类型在数学处理上有所不同:通常连续分布使用积分 ∫ 而离散分布使用求和Σ。以期望值为例:&/p&&img src=&/50/v2-2bc3a608bf0c7cc06d993_b.jpg& data-rawwidth=&640& data-rawheight=&145& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/50/v2-2bc3a608bf0c7cc06d993_r.jpg&&&p&下面我们将详细介绍各种常见的概率分布类型,正如上所说,概率分布可以分为离散型随机变量分布和连续性随机变量分布。离散型随机变量分布常见的有伯努利分布(Bernoulli Distribution)、二项分布(Binomial Distribution)、泊松分布(Poisson Distribution)等,而常见的连续型随机变量分布包括均匀分布(Uniform Distribution)、指数分布(Exponential Distribution)、正态分布等。&/p&&p&&br&&/p&&h2&常见的数据类型&/h2&&p&在解释各种分布之前,我们先看看常见的数据类型有哪些,数据类型可分为离散型和连续型。&/p&&p&离散型数据:数据只能取特定的值,比如,当你掷一个骰子的时候,可能的结果只有 1,2,3,4,5,6 而不会是 1.5 或者 2.45。&/p&&p&连续型数据:数据可以在给定的范围内取任何值,给定的范围可以是有限的或无限的,比如一个女孩的体重或者身高,或者道路的长度。一个女孩的体重可以是 54 kgs,54.5 kgs,或 54.5436kgs。&/p&&p&&br&&/p&&h2&分布的类型&/h2&&p&&b&伯努利分布&/b&&/p&&p&最简单的离散型随机变量分布是伯努利分布,我们从这里开始讨论。&/p&&p&一个伯努利分布只有两个可能的结果,记作 1(成功)和 0(失败),只有单次伯努利试验。设定一个具有伯努利分布的随机变量 X,取值为 1 即成功的概率为 p,取值为 0 即失败的概率为 q 或者 1-p。&/p&&p&若随机变量 X 服从伯努利分布,则概率函数为:&/p&&img src=&/50/v2-2cfcf748f4a0b16468bc5ddbda119b41_b.jpg& data-rawwidth=&159& data-rawheight=&41& class=&content_image& width=&159&&&p&成功和失败的概率不一定要相等。比如当我和一个运动员打架的时候,他的胜算应该更大,在这时候,我的成功概率是 0.15,而失败概率是 0.85。&/p&&p&下图展示了我们的战斗的伯努利分布。&/p&&img src=&/50/v2-afdc59e3ccfba32_b.jpg& data-rawwidth=&475& data-rawheight=&285& class=&origin_image zh-lightbox-thumb& width=&475& data-original=&/50/v2-afdc59e3ccfba32_r.jpg&&&p&如上图所示,我的成功概率=0.15,失败概率=0.85。期望值是指一个概率分布的平均值,对于随机变量 X,对应的期望值为:E(X) = 1*p + 0*(1-p) = p,而方差为 V(X) = E(X^2) – [E(X)]^2 = p – p^2 = p(1-p)&/p&&p&实际上还有很多关于伯努利分布的例子,比如明天是晴天还是雨天,这场比赛中某一队输还是赢,等等。&/p&&p&&br&&/p&&p&&b&二项分布&/b&&/p&&p&现在回到掷硬币的案例中,当掷完第一次,我们可以再掷一次,也就是存在多个伯努利试验。第一次为正不代表以后也会为正。那么设一个随机变量 X,它表示我们投掷为正面的次数。X 可能会取什么值呢?在投掷硬币的总次数范围内可以是任何非负整数。&/p&&p&如果存在一组相同的随机事件,即一组伯努利试验,在上例中为连续掷硬币多次。那么某随机事件出现的次数即概率服从于二项分布,也称为多重伯努利分布。&/p&&p&任何一次试验都是互相独立的,前一次试验不会影响当前试验的结果。两个结果概率相同的试验重复 n 次的试验称为多次伯努利试验。二项分布的参数为 n 和 p,n 是试验的总次数,p 是每一次试验的成功概率。&/p&&p&根据以上所述,一个二项分布的性质为:&/p&&p&&br&&/p&&p&1. 每一次试验都是独立的;&/p&&p&2. 只有两个可能的结果;&/p&&p&3. 进行 n 次相同的试验;&/p&&p&4. 所有试验中成功率都是相同的,失败的概率也是相同的。&/p&&p&二项分布的数学表达式为:&/p&&img src=&/50/v2-df16f939d0_b.jpg& data-rawwidth=&187& data-rawheight=&42& class=&content_image& width=&187&&&p&成功概率和失败概率不相等的二项分布看起来如下图所示:&/p&&img src=&/50/v2-aa0dad0de9cd1a2a4e0cc022b773cae7_b.jpg& data-rawwidth=&661& data-rawheight=&267& class=&origin_image zh-lightbox-thumb& width=&661& data-original=&/50/v2-aa0dad0de9cd1a2a4e0cc022b773cae7_r.jpg&&&p&而成功概率和失败概率相等的二项分布看起来如下图所示:&/p&&img src=&/50/v2-e90ada1e098_b.jpg& data-rawwidth=&666& data-rawheight=&268& class=&origin_image zh-lightbox-thumb& width=&666& data-original=&/50/v2-e90ada1e098_r.jpg&&&p&二项分布的平均值表示为 u = n*p,而方差可以表示为 Var(X) = n*p*q。&/p&&p&&br&&/p&&p&&b&泊松分布&/b&&/p&&p&如果你在一个呼叫中心工作,一天内会接到多少次呼叫呢?多少次都可能!在呼叫中心一天能接到多少次呼叫可以用泊松分布建模。这里有几个例子:&/p&&p&1. 一天内医院接到的紧急呼叫次数;&/p&&p&2. 一天内地方接到的偷窃事件报告次数;&/p&&p&3. 一小时内光顾沙龙的人数;&/p&&p&4. 一个特定城市里报告的自杀人数;&/p&&p&5. 书的每一页的印刷错误次数。&/p&&p&&br&&/p&&p&现在你可以按相同的方式构造很多其它的例子。泊松分布适用于事件发生的时间和地点随机分布的情况,其中我们只对事件的发生次数感兴趣。泊松分布的主要特点为如下:&/p&&p&1. 任何一个成功事件不能影响其它的成功事件;&/p&&p&2. 经过短时间间隔的成功概率必须等于经过长时间间隔的成功概率;&/p&&p&3. 时间间隔趋向于无穷小的时候,一个时间间隔内的成功概率趋近零。&/p&&p&&br&&/p&&p&在泊松分布中定义的符号有:&/p&&ul&&li&λ是事件的发生率;&/li&&li&t 是事件间隔的长度;&/li&&li&X 是在一个时间间隔内的事件发生次数。&/li&&/ul&&p&设 X 是一个泊松随机变量,那么 X 的概率分布称为泊松分布。以u表示一个时间间隔 t 内平均事件发生的次数,则 u=λ*t;&/p&&p&X 的概率分布函数为:&/p&&img src=&/50/v2-1aeed0dc44d470b650e19_b.jpg& data-rawwidth=&395& data-rawheight=&41& class=&content_image& width=&395&&&p&泊松分布的概率分布图示如下,其中u为泊松分布的参数:&/p&&img src=&/50/v2-22e7fbb05ef_b.jpg& data-rawwidth=&673& data-rawheight=&305& class=&origin_image zh-lightbox-thumb& width=&673& data-original=&/50/v2-22e7fbb05ef_r.jpg&&&p&下图展示了均值增加时的分布曲线的变化情况:&/p&&img src=&/50/v2-b7b4fba7ab0e917f909454_b.jpg& data-rawwidth=&700& data-rawheight=&315& class=&origin_image zh-lightbox-thumb& width=&700& data-original=&/50/v2-b7b4fba7ab0e917f909454_r.jpg&&&p&如上所示,当均值增加时,曲线向右移动。泊松分布的均值和方差为:&/p&&p&均值:E(X) = u&/p&&p&方差: Var(X) = u&/p&&p&&br&&/p&&p&&b&均匀分布&/b&&/p&&p&假设我们在从 a 到 b 的一段线段上等距地选择一个区间的概率是相等的,那么概率在整个区间 [a,b] 上是均匀分布的,概率密度函数也不会随着变量的更改而更改。均匀分布和伯努利分布不同,随机变量的取值都是等概率的,因此概率密度就可以表达为区间长度分之一,如果我们取随机变量一半的可能值,那么其出现的概率就为 1/2。&/p&&p&假定随机变量 X 服从均匀分布,那么概率密度函数为:&/p&&img src=&/50/v2-9c07d50afb74b10b488be_b.jpg& data-rawwidth=&398& data-rawheight=&35& class=&content_image& width=&398&&&p&均匀分布曲线图如下所示,其中概率密度曲线下面积为随机变量发生的概率:&/p&&img src=&/50/v2-2c04af1dbf_b.jpg& data-rawwidth=&534& data-rawheight=&198& class=&origin_image zh-lightbox-thumb& width=&534& data-original=&/50/v2-2c04af1dbf_r.jpg&&&p&我们可以看到均匀分布的概率分布图呈现为一个矩形,这也就是均匀分布又称为矩形分布的原因。在均匀分布中,a 和 b 都为参数,也即随机变量的取值范围。&/p&&p&服从均匀分布的随机变量 X 也有均值和方差,它的均值为 E(X) = (a+b)/2,方差为 V(X) = (b-a)^2/12&/p&&p&标准均匀分布的密度函数参数 a 取值为 0,b 取值为 1,因此标准均匀分布的概率密度可以表示为:&/p&&img src=&/50/v2-90bdf8bf1ed89a46a6e45c09d6460e03_b.jpg& data-rawwidth=&171& data-rawheight=&39& class=&content_image& width=&171&&&p&&b&指数分布&/b&&/p&&p&&br&&/p&&p&现在我们再次考虑电话中心案例,那么电话间隔的分布是怎么样的呢?这个分布可能就是指数分布,因为指数分布可以对电话的时间间隔进行建模。其它案例可能还有地铁到达时间的建模和空调设备周期等。&/p&&p&在深度学习中,我们经常会需要一个在 x=0 处取得边界点 (sharp point) 的分布。为了实现这一目的,我们可以使用指数分布(exponential distribution):&/p&&img src=&/50/v2-5dd1a4fb34f_b.jpg& data-rawwidth=&339& data-rawheight=&74& class=&content_image& width=&339&&&p&指数分布使用指示函数 (indicator function)1x≥0,以使当 x 取负值时的概率为零。&/p&&p&其中 λ &0 为概率密度函数的参数。随机变量 X 服从于指数分布,则该变量的均值可表示为 E(X) = 1/λ、方差可以表示为 Var(X) = (1/λ)^2。如下图所示,若λ较大,则指数分布的曲线下降地更大,若λ较小,则曲线越平坦。如下图所示:&/p&&img src=&/50/v2-f76f566e74b5a203c96f87f0aa52b49a_b.jpg& data-rawwidth=&476& data-rawheight=&282& class=&origin_image zh-lightbox-thumb& width=&476& data-original=&/50/v2-f76f566e74b5a203c96f87f0aa52b49a_r.jpg&&&p&以下是由指数分布函数推导而出的简单表达式:&/p&&p&P{X≤x} = 1 – exp(-λx),对应小于 x 的密度函数曲线下面积。&/p&&p&P{X&x} = exp(-λx),代表大于 x 的概率密度函数曲线下面积。&/p&&p&P{x1&X≤ x2} =exp(-λx1)-exp(-λx2),代表 x1 点和 x2 点之间的概率密度函数曲线下面积。&/p&&p&&br&&/p&&p&&b&正态分布(高斯分布)&/b&&/p&&p&实数上最常用的分布就是正态分布(normal distribution),也称为高斯分布(Gaussian distribution)。因为该分布的普遍性,尤其是中心极限定理的推广,一般叠加很多较小的随机变量都可以拟合为正态分布。正态分布主要有以下几个特点:&/p&&p&1. 所有的变量服从同一均值、方差和分布模式。&/p&&p&2. 分布曲线为钟型,并且沿 x=μ对称。&/p&&p&3. 曲线下面积的和为 1。&/p&&p&4. 该分布左半边的精确值等于右半边。&/p&&p&&br&&/p&&p&正态分布和伯努利分布有很大的不同,然而当伯努利试验的次数接近于无穷大时,他们的分布函数基本上是相等的。&/p&&p&&br&&/p&&p&若随机变量 X 服从于正态分布,那么 X 的概率密度可以表示为:&/p&&img src=&/50/v2-f1c5ec04fae7be16dc9d7_b.jpg& data-rawwidth=&336& data-rawheight=&44& class=&content_image& width=&336&&&p&随机变量 X 的均值可表示为 E(X) = u、方差可以表示为 Var(X) = σ^2。其中均值u和标准差σ为高斯分布的参数。&/p&&p&随机变量 X 服从于正态分布 N (u, σ),可以表示为:&/p&&img src=&/50/v2-7fe0f307c6ed686b68ca562_b.jpg& data-rawwidth=&480& data-rawheight=&320& class=&origin_image zh-lightbox-thumb& width=&480& data-original=&/50/v2-7fe0f307c6ed686b68ca562_r.jpg&&&p&标准正态分布可以定义为均值为 0、方差为 1 的分布函数,以下展示了标准正态分布的概率密度函数和分布图:&/p&&img src=&/50/v2-fe02bfe318e34fbaf25cac_b.jpg& data-rawwidth=&640& data-rawheight=&294& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/50/v2-fe02bfe318e34fbaf25cac_r.jpg&&&p&&br&&/p&&h2&分布之间的关系&/h2&&p&&br&&/p&&p&&b&伯努利分布和二项分布的关系&/b&&/p&&p&1. 二项分布是伯努利分布的单次试验的特例,即单次伯努利试验;&/p&&p&2. 二项分布和伯努利分布的每次试验都只有两个可能的结果;&/p&&p&3. 二项分布每次试验都是互相独立的,每一次试验都可以看作一个伯努利分布。&/p&&p&&br&&/p&&p&&b&泊松分布和二项分布的关系&/b&&/p&&p&以下条件下,泊松分布是二项分布的极限形式:&/p&&p&1. 试验次数非常大或者趋近无穷,即 n → ∞;&/p&&p&2. 每次试验的成功概率相同且趋近零,即 p →0;&/p&&p&3.np =λ 是有限值。&/p&&p&&br&&/p&&p&&b&正态分布和二项分布的关系 & 正态分布和泊松分布的关系&/b&&/p&&p&以下条件下,正态分布是二项分布的一种极限形式:&/p&&p&1. 试验次数非常大或者趋近无穷,即 n → ∞;&/p&&p&2.p 和 q 都不是无穷小。&/p&&p&参数 λ →∞的时候,正态分布是泊松分布的极限形式。&/p&&p&&br&&/p&&p&&b&指数分布和泊松分布的关系&/b&&/p&&p&如果随机事件的时间间隔服从参数为 λ的指数分布,那么在时间周期 t 内事件发生的总次数服从泊松分布,相应的参数为 λt。&/p&&p&&br&&/p&&p&&b&测试&/b&&/p&&p&读者可以完成以下简单的测试,检查自己对上述概率分布的理解程度:&/p&&p&1. 服从标准正态分布的随机变量计算公式为:&/p&&p&a. (x+u) / σ&/p&&p&b. (x-u) / σ&/p&&p&c. (x-σ) / u&/p&&p&&br&&/p&&p&2. 在伯努利分布中,计算标准差的公式为:&/p&&p&a. p (1 – p)&/p&&p&b. SQRT(p(p – 1))&/p&&p&c. SQRT(p(1 – p))&/p&&p&&br&&/p&&p&3. 对于正态分布,均值增大意味着:&/p&&p&a. 曲线向左移&/p&&p&b. 曲线向右移&/p&&p&c. 曲线变平坦&/p&&p&&br&&/p&&p&4. 假定电池的生命周期服从 λ = 0.05 指数分布,那么电池的最终使用寿命在 10 小时到 15 小时之间的概率为:&/p&&p&a.0.1341&/p&&p&b.0.1540&/p&&p&c.0.0079&/p&&p&&br&&/p&&h2&结语&/h2&&p&在本文中,我们从最基本的随机事件及其概念出发讨论对概率的理解。随后我们讨论了最基本的概率计算方法与概念,比如条件概率和贝叶斯概率等等。文中还讨论了随机变量的独立性和条件独立性。此外,本文更是详细介绍了概率分布,包括离散型随机变量分布和连续型随机变量分布。本文主要讨论了基本的概率定理与概念,其实这些内容在我们大学的概率论与数理统计课程中基本上都有详细的解释。而对于机器学习来说,理解概率和统计学知识对理解机器学习模型十分重要,以它为基础我们也能进一步理解结构化概率等新概念。&/p&&p&&br&&/p&&p&&br&&/p&&p&原文链接:&/p&&ul&&li&&a href=&/?target=https%3A///towards-data-science/probabiliy-theory-basics-4ef523ae0820& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/towards-data&/span&&span class=&invisible&&-science/probabiliy-theory-basics-4ef523ae0820&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A///blog/-probability-distributions-data-science/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/blo&/span&&span class=&invisible&&g/-probability-distributions-data-science/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/li&&/ul&&p&&br&&/p&&p&选自 Medium & analyticsvidhya&/p&&p&机器之心编译&/p&&p&机器之心编辑部&/p&&p&&br&&/p&&p&&br&&/p&&p&本文为机器之心编译,转载请联系本公众号获得授权。&/p&&p&&/p&
本文从最基础的概率论到各种概率分布全面梳理了基本的概率知识与概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识。 简介在…
&img src=&/50/v2-4fb7a36a24ea847da0c224_b.jpg& data-rawwidth=&1272& data-rawheight=&710& class=&origin_image zh-lightbox-thumb& width=&1272& data-original=&/50/v2-4fb7a36a24ea847da0c224_r.jpg&&&blockquote&夏乙 编译整理&br&量子位 出品 | 公众号 QbitAI&/blockquote&&p&&br&&/p&&img src=&/v2-aefc51baa71cd8b68ec7cec2_b.jpg& data-rawwidth=&640& data-rawheight=&356& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-aefc51baa71cd8b68ec7cec2_r.jpg&&&p&&br&&/p&&p&给吴恩达三块白板和一支马克笔,听他讲一节精彩的课。&/p&&p&刚刚,在O’reilly举办的AI Conference上,吴恩达做了个25分钟的演讲,主题依然是“AI is the new electricity”,但内容可以说是充满诚意非常干货了。&/p&&p&吴恩达老师这节课,主要讲了这四部分内容:&/p&&ul&&li&AI能做什么?各种算法有多大商业价值?&/li&&li&做AI产品要注意什么?&/li&&li&怎样成为真正的AI公司?&/li&&li&给AI领导者的建议&/li&&/ul&&p&&br&&/p&&img src=&/v2-ffe92eb3aabdb08cc48af24d2eef9bda_b.jpg& data-rawwidth=&640& data-rawheight=&357& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-ffe92eb3aabdb08cc48af24d2eef9bda_r.jpg&&&p&&br&&/p&&p&&b&△&/b& 现场视频截图,主要看字&/p&&p&量子位看着视频写了一份笔记,将其中的干货摘录如下:&br&&/p&&p&吴恩达的老师的开场白,依然是AI像当年的电力一样,正开始改变所有行业。&/p&&p&要理解AI,就要先进入我们的第一部分:&/p&&h2&AI能做什么?&/h2&&p&目前,AI技术做出的经济贡献几乎都来自&b&监督学习&/b&,也就是学习从A到B,从输入到输出的映射。&/p&&p&&br&&/p&&img src=&/v2-fef1f3b4cfadc_b.jpg& data-rawwidth=&640& data-rawheight=&358& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-fef1f3b4cfadc_r.jpg&&&p&&br&&/p&&p&比如说,输入一张照片,让机器学会判断这张照片是不是你,输出0或1。&/p&&p&现在最赚钱的机器学习应用,应该说是在线广告。在这个例子中,输入是广告和用户信息,输出是用户会不会点击这个广告(还是0或1)。&/p&&p&监督学习还可以应用在消费金融领域,输入贷款申请信息,输出用户是否会还款。&/p&&p&过去几年里,机器学习经历了迅速的发展,越来越擅长学习这类A到B的映射,创造了大规模的经济效益。&/p&&p&同时,AI的进步也体现在监督学习的输出不再限于0或1的数字。&/p&&p&&br&&/p&&img src=&/v2-7e5b269c9a24fb5960ec89_b.jpg& data-rawwidth=&640& data-rawheight=&357& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-7e5b269c9a24fb5960ec89_r.jpg&&&p&&br&&/p&&p&比如说语音识别的任务,也是一种端到端的学习,输入音频,输出文本。只要有足够的数据,语音识别就能达到很好的效果。&/p&&p&这类算法为语音搜索、亚马逊Alexa、苹果Siri、百度DuerOS等等提供了基础。&/p&&p&还有输入英语输出法语的机器翻译,输入文本输出音频的TTS(Text to Speech)等等,都是监督学习的应用。&/p&&p&&b&监督学习的缺点是它需要大量的标注数据&/b&,这影响了它的普及。&/p&&p&经常有人问我,为什么神经网络已经存在了这么多年,AI却近年来才开始快速发展?&/p&&p&很多人可能见过我画这张图:&/p&&p&&br&&/p&&img src=&/v2-81eefbb82911daa59c2da42_b.jpg& data-rawwidth=&640& data-rawheight=&357& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-81eefbb82911daa59c2da42_r.jpg&&&p&&br&&/p&&p&横轴是数据量,纵轴是算法的性能。&/p&&p&随着数据量的增加,传统机器学习算法的性能并没有明显提升,而神经网络的性能,会有比较明显的提升,神经网络越大,性能的提升就越明显。&/p&&p&为了达到最佳的性能,你需要两样东西:一是大量的数据,二是大型的神经网络。&/p&&p&&br&&/p&&img src=&/v2-9bd057a6d_b.jpg& data-rawwidth=&640& data-rawheight=&356& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-9bd057a6d_r.jpg&&&p&&br&&/p&&p&&b&△&/b& 擦干净白板继续讲~&/p&&p&还有一个问题,有很多人问我:机器学习中最大的趋势是什么?算法如何创造价值?&/p&&p&现在来看,创造最多价值的还是监督学习。&/p&&p&如果你问我监督学习之后是什么,我认为&b&迁移学习&/b&现在也开始创造不少经济效益。可能因为这个概念不够性感,所以人们谈论得不多。&/p&&p&比如说你的算法从一个像ImageNet那样的大数据集学到了图像识别,然后用迁移学习,用到医学影像诊断上。&/p&&p&而&b&非监督学习&/b&,我认为是非常好的长期研究项目。它也创造了一些经济价值,特别是在自然语言处理上。&/p&&p&&b&强化学习&/b&也很有意思,我研究了很多年,现在也还在这方面做一些微小的工作。但是我认为,强化学习的舆论热度和经济效益有点不成比例。&/p&&p&强化学习对数据的饥渴程度甚至比监督学习更严重,要为强化学习算法获取到足够的数据非常难。&/p&&p&在打游戏这个领域,强化学习表现很好,这是因为在电子游戏中,算法可以重复玩无限次,获取无限的数据。&/p&&p&在机器人领域,我们也可以建立一个模拟器,相当于能让强化学习agent在其中模拟无人车、人形机器人,重复无限次“游戏”。&/p&&p&&b&除了游戏和机器人领域之外,要把强化学习应用到商业和实践中还有很长的路要走。&/b&&/p&&p&&br&&/p&&img src=&/v2-169bfc0069ac_b.jpg& data-rawwidth=&640& data-rawheight=&358& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-169bfc0069ac_r.jpg&&&p&&br&&/p&&p&现在,监督学习、迁移学习、非监督学习、强化学习这四类算法所创造的经济效益是递减的。&/p&&p&当然,这只是目前的情况。计算机学科不断有新突破,每隔几年就变个天。这四个领域中的任何一个都可能发生突破,几年内这个顺序就可能要重排。&/p&&p&&br&&/p&&img src=&/v2-593c88d79fc9ab2f7653_b.jpg& data-rawwidth=&640& data-rawheight=&358& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-593c88d79fc9ab2f7653_r.jpg&&&p&&br&&/p&&p&我注意到的另一件事情是,&b&机器学习依靠结构化数据,比非结构化数据创造了更多的经济效益。&/b&&/p&&p&举个结构化数据的例子,比如说你的数据库记录了用户的交易情况,谁什么时候买了什么东西,谁什么时间给谁发了信息,这就是结构化数据。&/p&&p&而像图像、音频、自然语言等等,就是非结构化数据。&/p&&p&虽然非结构化数据听起来更吸引人,舆论热度更高,但结构化数据的价值在于它通常专属于你的公司,比如说只有你的打车公司才有用户什么时候叫车、等了多长时间这样一个数据集。&/p&&p&所以,不要低估结构化数据结合深度学习所能创造的经济价值。&/p&&p&在前面谈到的几类学习算法中,单是监督学习就已经为公司、创业者创造了大量的经济价值和机会。&/p&&p&&br&&/p&&img src=&/v2-68b5adc0f7_b.jpg& data-rawwidth=&640& data-rawheight=&358& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-68b5adc0f7_r.jpg&&&p&&br&&/p&&p&&b&△&/b& 再擦一块白板(×2),继续~&/p&&h2&做AI产品要注意什么?&/h2&&p&有一个很有意思的趋势,是AI的崛起正改变着公司间竞争的基础。&/p&&p&&b&公司的壁垒不再是算法,而是数据。&/b&&/p&&p&当我建立一家新公司,会特地设计一个循环:&/p&&p&&br&&/p&&img src=&/v2-31cfcd914_b.jpg& data-rawwidth=&640& data-rawheight=&357& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-31cfcd914_r.jpg&&&p&&br&&/p&&p&先为算法收集足够的数据,这样就能推出产品,然后通过这个产品来获取用户,用户会提供更多的数据……&/p&&p&有了这个循环之后,对手就很难追赶你。&/p&&p&这方面有一个很明显的例子:搜索公司。搜索公司有着大量的数据,显示如果用户搜了这个词,就会倾向于点哪个链接。&/p&&p&我很清楚该如何构建搜索算法,但是如果没有大型搜索公司那样的数据集,简直难以想象一个小团队如何构建一个同样优秀的搜索引擎。这些数据资产就是最好的壁垒。&/p&&p&&br&&/p&&img src=&/v2-30dd24d3ac15b17a4c554b3b1e66e4a4_b.jpg& data-rawwidth=&640& data-rawheight=&356& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-30dd24d3ac15b17a4c554b3b1e66e4a4_r.jpg&&&p&&br&&/p&&p&工程师们还需要清楚这一点:&/p&&p&AI的范围,比监督学习广泛得多。我认为人们平时所说的AI,其实包含了好几类工具:比如机器学习、图模型、规划算法、知识表示(知识图谱)。&/p&&p&人们的关注点集中在机器学习和深度学习,很大程度上是因为其他工具的发展速度很平稳。&/p&&p&如果我现在建立一个AI团队,做AI项目,很多时候应该用图模型,有时应该用知识图谱,但是最大的机遇还是在于机器学习,这才是几年来发展最快、出现突破的领域。&/p&&p&接下来我要和大家分享一下我看问题的框架。&/p&&p&&br&&/p&&img src=&/v2-ddfb1cf3425ff70ffbd1_b.jpg& data-rawwidth=&640& data-rawheight=&358& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-ddfb1cf3425ff70ffbd1_r.jpg&&&p&&br&&/p&&p&计算机,或者说算法是怎样知道该做什么的呢?它有两个知识来源,一是数据,二是人工(human engineering)。&/p&&p&要解决不同的问题,该用的方法也不同。&/p&&p&比如说在线广告,我们有那么多的数据,不需要太多的人工,深度学习算法就能学得很好。&/p&&p&但是在医疗领域,数据量就很少,可能只有几百个样例,这时就需要大量的人工,比如说用图模型来引入人类知识。&/p&&p&也有一些领域,我们有一定数量的数据,但同时也需要人工来做特征工程。&/p&&p&&br&&/p&&img src=&/v2-32a8e4b5ffdf74e5a8635f_b.jpg& data-rawwidth=&640& data-rawheight=&357& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-32a8e4b5ffdf74e5a8635f_r.jpg&&&p&&br&&/p&&p&当然,还要谈一谈工程师如何学习。&/p&&p&很多工程师想要进入AI领域,很多人会去上在线课程,但是有一个学习途径被严重忽视了:读论文,重现其中的研究。&/p&&p&当你读了足够多的论文,实现了足够多的算法,它们都会内化成你的知识和想法。&/p&&p&要培养机器学习工程师,我推荐的流程是:上(deeplearning.ai的)机器学习课程来打基础,然后读论文并复现其中的结果,另外,还要通过参加人工智能的会议来巩固自己的基础。&/p&&p&&br&&/p&&img src=&/v2-1dbc8ce68c060e8d509c1_b.jpg& data-rawwidth=&640& data-rawheight=&358& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-1dbc8ce68c060e8d509c1_r.jpg&&&p&&br&&/p&&p&&b&△&/b& 再擦一块白板(×3)&/p&&h2&怎样成为真正的AI公司?&/h2&&p&我接下来要分享的这个观点,可能是我今天所讲的最重要的一件事。&/p&&p&从大约20年、25年前开始,我们开始看见互联网时代崛起,互联网成为一个重要的东西。&/p&&p&我从那个时代学到了一件重要的事:&/p&&p&&b&商场 + 网站 ≠ 互联网公司&/b&&/p&&p&我认识一家大型零售公司的CIO,有一次CEO对他说:我们在网上卖东西,亚马逊也在网上卖东西,我们是一样的。&/p&&p&不是的。&/p&&p&&br&&/p&&img src=&/v2-60bd4ddfeac491_b.jpg& data-rawwidth=&640& data-rawheight=&357& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-60bd4ddfeac491_r.jpg&&&p&&br&&/p&&p&互联网公司是如何定义的呢?不是看你有没有网站,而是看做不做A/B测试、能不能快速迭代、是否由工程师和产品经理来做决策。&/p&&p&这才是互联网公司的精髓。&/p&&p&现在我们经常听人说“AI公司”。在AI时代,我们同样要知道:&/p&&p&&b&传统科技公司 + 机器学习/神经网络 ≠ AI公司&/b&(全场笑)&/p&&p&公司里有几个人在用神经网络,并不能让你们成为一家AI公司,要有更深层的变化。&/p&&p&20年前,我并不知道A/B测试对互联网公司来说有多重要。现在,我在想AI公司的核心是什么。&/p&&p&我认为,AI公司倾向于&b&策略性地获取数据&/b&。我曾经用过这样一种做法:在一个地区发布产品,为了在另一个地区发布产品而获取数据,这个产品又是为了在下一个地区发布产品来获取数据用的,如此循环。而所有产品加起来,都是为了获取数据驱动一个更大的目标。&/p&&p&像Google和百度这样的大型AI公司,都有着非常复杂的策略,为几年后做好了准备。&/p&&p&第二点是比较战术性的,你可能现在就可以开始施行:AI公司通常有&b&统一的数据仓库&/b&。&/p&&p&很多公司有很多数据仓库,很分散,如果工程师想把这些数据放在一起来做点什么,可能需要和50个不同的人来沟通。&/p&&p&所以我认为建立一个统一的数据仓库,所有的数据都存储在一起是一种很好的策略。&/p&&p&另外,&b&普遍的自动化&/b&和&b&新的职位描述&/b&也是AI公司的重要特征。&/p&&p&比如说在移动互联网时代,产品经理在设计交互App的时候可能会画个线框图:&/p&&p&&br&&/p&&img src=&/v2-b82e56ddfbef2_b.jpg& data-rawwidth=&640& data-rawheight=&358& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-b82e56ddfbef2_r.jpg&&&p&&br&&/p&&p&然后工程师去实现它,整个流程很容易理清楚。&/p&&p&但是假设在AI时代,我们要做一个聊天机器人,这时候如果产品经理画个线框图说:这是头像,这是聊天气泡,并不能解决问题。&/p&&p&聊天气泡长什么样不重要,我需要知道的是,这个聊天机器人要说什么话。线框图对聊天机器人项目来说没什么用。&/p&&p&&br&&/p&&img src=&/v2-88e4ec41cd_b.jpg& data-rawwidth=&640& data-rawheight=&357& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-88e4ec41cd_r.jpg&&&p&&br&&/p&&p&如果一个产品经理画了个无人车的线框图,说“我们要做个这个”,更是没什么用。(全场笑)&/p&&p&在AI公司里,产品经理在和工程师沟通的时候,需要学会运用数据,要求精确的反馈。&/p&&h2&给AI领导者的建议&/h2&&p&时间好像不够了,给高管的建议嘛,欢迎阅读我给《哈佛商业评论》写的文章&/p&&p&&b&互动时间&/b&&/p&&p&如果你对吴恩达最后提到的那篇文章感兴趣,可以在量子位微信公众号(QbitAI)对话界面,回复:“&b&hbr&/b&”三个字母,即可获得地址。&/p&&p&— &b&完&/b& —&/p&&p&欢迎大家关注我们的专栏:&a href=&/qbitai& class=&internal&&量子位 - 知乎专栏&/a&&/p&&p&诚挚招聘&/p&&p&量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。&/p&&p&&a href=&/qbitai& class=&internal&&量子位 QbitAI&/a&&/p&&p&?'?' ? 追踪AI技术和产品新动态&/p&
夏乙 编译整理 量子位 出品 | 公众号 QbitAI 给吴恩达三块白板和一支马克笔,听他讲一节精彩的课。刚刚,在O’reilly举办的AI Conference上,吴恩达做了个25分钟的演讲,主题依然是“AI is the new electricity”,但内容可以说是充满诚意非常干货了。吴恩…
&img src=&/50/v2-bf6dc9d743afe775b26e34_b.jpg& data-rawwidth=&1920& data-rawheight=&1200& class=&origin_image zh-lightbox-thumb& width=&1920& data-original=&/50/v2-bf6dc9d743afe775b26e34_r.jpg&&&p&选自arXiv&/p&&p&机器之心编译&/p&&p&参与:Panda、蒋思源、黄小天&/p&&p&&br&&/p&&blockquote&人工智能技术已经成为当前技术变革的主要推动力之一,从计算机科学到工程学等许多科学技术领域都在竭尽全力想用自动化的方法创造更大的价值。要想做到这一点,工程师当然必须要对当前最具潜力的机器学习方法有一个大致了解。伦敦国王学院信息学习教授 Osvaldo Simeone 近日在 arXiv 上公开发布了长达 200 页的最新专著,为工程师提供了全面细致的机器学习入门介绍。在本文中,机器之心对这本专著的摘要及目录部分进行了介绍。专著原文可在 arXiv 下载,工程师和准工程师一定不要错过。&/blockquote&&p&为工程师写的机器学习简介(A Brief Introduction to Machine Learning for Engineers)&/p&&img src=&/v2-6988c0baf9cbe0f758894_b.jpg& data-rawwidth=&640& data-rawheight=&325& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-6988c0baf9cbe0f758894_r.jpg&&&p&&br&&/p&&p&专著地址:&a href=&/?target=https%3A//arxiv.org/abs/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&arxiv.org/abs/&/span&&span class=&invisible&&0&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&摘要&/p&&p&本专著的目标是介绍机器学习领域内的关键概念、算法和理论框架,涵盖了监督学习与无监督学习、统计学习理论、概率图模型和近似推断等方向。本专著的目标读者是具有概率学和线性代数背景的电气工程师。本书基于第一原理(first principle)写作,并按照有清晰定义的分类方式对其中的主要思想进行了组织,其中的类别包含鉴别式模型和生成式模型、频率论者和贝叶斯方法、准确推断和近似推断、有向模型和无向模型、凸优化和非凸优化。本书中的数学框架使用了信息论的描述方式,以便工具具有统一性。书中提供了简单且可重复的数值示例,以便读者了解相关的关键动机和结论。本专著的目的并不是要为每个特定类别中已有的大量解决方案提供详尽的细节描述(这些描述读者可参阅教科书和论文了解),而是为了给工程师提供一个切入点,以便他们能借此进一步深入机器学习相关文献。&/p&&p&1 引言&/p&&p&1.1 机器学习&/p&&p&1.2 目标和纲要&/p&&p&&br&&/p&&p&2 线性回归入门介绍&/p&&p&2.1 监督学习&/p&&p&2.2 推断&/p&&p&2.3 频率论者&/p&&p&2.4 贝叶斯方法&/p&&p&2.5 最小描述长度(MDL)&/p&&p&2.6 解释与因果关系&/p&&p&2.7 信息论指标&/p&&p&2.8 总结&/p&&p&&br&&/p&&p&3 概率学习模型&/p&&p&3.1 指数分布族&/p&&p&3.2 最大熵性质&/p&&p&3.3 频率学习(Frequentist Learning)&/p&&p&3.4 贝叶斯学习&/p&&p&3.5 基于能量的模型(Energy-based Models)&/p&&p&3.6 通过广义线性模型(GLM)的监督学习&/p&&p&3.7 总结&/p&&p&&br&&/p&&p&4 分类&/p&&p&4.1 将分类作为监督学习问题&/p&&p&4.2 随机梯度下降&/p&&p&4.3 判别式确定性模型&/p&&p&4.4 判别式概率模型&/p&&p&4.5 生成式概率模型&/p&&p&4.6 多类别分类&/p&&p&4.7 非线性判别式模型:深度神经网络&/p&&p&4.8 Boosting&/p&&p&4.9 总结&/p&&p&&br&&/p&&p&5 统计学习理论&/p&&p&5.1 监督学习的一种形式框架&/p&&p&5.2 PAC 可学习性和样本复杂性&/p&&p&5.3 有限假设类别的 PAC 可学习性&/p&&p&5.4 VC 维和 PAC 学习的基本定理&/p&&p&5.5 总结&/p&&p&&br&&/p&&p&6 无监督学习&/p&&p&6.1 无监督学习&/p&&p&6.2 K-均值聚类&/p&&p&6.3 ML、ELBO 和 EM&/p&&p&6.4 有向生成模型&/p&&p&6.5 无向生成模型&/p&&p&6.6 判别式模型&/p&&p&6.7 自编码器&/p&&p&6.8 Ranking &/p&&p&6.9 总结&/p&&p&&br&&/p&&p&7 概率图模型&/p&&p&7.1 介绍&/p&&p&7.2 贝叶斯网络&/p&&p&7.3 马尔可夫随机场&/p&&p&7.4 概率图模型中的贝叶斯推断&/p&&p&7.5 总结&/p&&p&&br&&/p&&p&8 近似推断和学习&/p&&p&8.1 蒙特卡罗方法&/p&&p&8.2 变分推断&/p&&p&8.3 基于蒙特卡罗的变分推断&/p&&p&8.4 近似学习&/p&&p&8.5 总结&/p&&p&&br&&/p&&p&9 结语&/p&&p&&br&&/p&&p&附录&/p&&p&&br&&/p&&p&A 附录 A:信息度量&/p&&p&A.1 熵&/p&&p&A.2 条件熵和互信息&/p&&p&A.3 散度度量&/p&&p&B 附录 B:KL 散度和指数分布族&/p&&p&&br&&/p&&p&致谢&/p&&p&&br&&/p&&p&参考文献&/p&&p&&br&&/p&&p&介绍&/p&&p&当我在教授机器学习课程时,有着工程学背景的同事和学生经常问及:如何更好地入门机器学习。我通常会以书籍推荐的形式回应——一般但稍微过时的介绍,请读这本书;对于基于概率模型方法的详细调查,请查看这些索引;如果想要了解统计学习,我觉得这篇文章很有用;如此等等。结果证明这些回答无法使我与提问者满意。书籍很多很厚,使得繁忙的工程学教授和学生望而却步。因此我首次撰写了这篇专论,一篇基础且体量适当的入门书,其中通过简单的术语面向工程师统一介绍了机器学习主要思想和原理,同时涵盖了其最新发展和文献指导,以供进一步研究。&/p&&p&第二章,线性回归入门介绍&/p&&p&第二章我们回顾了三个核心的学习框架,即频率论者(frequentist)、贝叶斯和 MDL。频率论者为数据假定了真实、未知分布的存在,并致力于学习一个预测器(predictor),从而更好地泛化来自这一分布的不可见数据。这可通过学习一个插入最优预测器表达式的概率模型或者直接解决预测变量上的 ERM 问题而完成。贝叶斯方法输出一个预测分布,可通过解决计算不可见标签上后验分布的推断问题而整合先验信息与数据。最后,MDL 方法旨在筛选一个模型,允许使用最少的比特描述数据,因此去除在未观察实例上泛化的任务。本章也广泛讨论了过拟合的关键问题,展示了学习算法的性能可就偏差和评估错误获得理解。运行实例是用于高斯模型的线形回归中的一个。下一章将会介绍更多学习构建和学习常见概率模型的工具。&/p&&p&第三章,概率学习模型&/p&&p&本章中,我们回顾了概率模型的一个重要类别——指数族,它被广泛用作学习算法的组件以完成监督、无监督学习任务。这一类别成员的关键属性是由同一家族中的梯度 LL 和共轭先验的可用性采用的简单形式。下一章我们将讲述指数族在解决分类问题方面的不同应用模型。&/p&&p&第四章,分类&/p&&p&本章扼要概述了分类的关键问题。按照第二章提出的分类系统,我们依据用来连接解释性变量与标签的模型类型划分了学习算法。尤其地,我们描述了线性与非线性的确定性判别模型,涵盖了用于多层神经网络的感知机算法、SVM、反向传播;聚焦于 GLM 的概率判别模型;包括 QDA 和 LDA 在内的概率生成模型。我们同样介绍了混合模型与提升方法(Boosting)。尽管本章聚焦在算法方面,下一章将讨论一个理论框架,研究监督学习的性能。&/p&&p&第五章,统计学习理论&/p&&p&本章描述了经典的 PAC 框架,并用它分析监督学习的泛化性能。我们知道 VC 维理论定义了模型的能力,这就意味着 VC 维在给定模型准确度和置信度上度量了其学习所需要的样本数量。在下一章中,我们将从监督学习进一步讨论无监督学习问题。&/p&&p&第六章,无监督学习&/p&&p&在本章节中,我们回顾了无监督学习的基础知识。优秀的无监督学习方法一般都通过隐变量或潜在变量帮助解释数据的结构。我们首先通过期望最大化算法(EM)回顾了机器学习及各种变体。随后介绍了机器学习生成模型 GAN,该方法使用从数据中学到的散度度量以代替 KL 散度。随后接着回顾了通过 InfoMax 原则训练的判别模型和自编码器。在下一章节中,我们通过讨论概率图模型的强大框架而扩展了对概率模型的理解。&/p&&p&第七章,概率图模型&/p&&p&概率图模型将关于数据结构的先验信息编码为因果关系的形式,即通过有向图和贝叶斯网络(BN),或通过无向图和马尔可夫随机场(MRF)编码为相互之间的依赖性关系。这种结构可以表示为条件独立性属性。概率图模型所编码的结构属性能有效地控制模型的性能,因此能以可能的偏差为代价减少过模型拟合。概率图模型也推动执行贝叶斯推断,至少在树型结构的图中是这样的。下一章将讨论贝叶斯推断和关联学习比较重要的问题,当然具体的方法对计算力的需求就太大了。&/p&&p&第八章,近似推断与学习&/p&&p&本章通过关注 MC 和 VI 方法概览了近似推断技术。并且重点关注了选择不同类型的近似准则及其所产生的影响,例如介绍 M- 和 I- 映射。同样我们还讨论了在学习问题上使用近似推断的方法。此外,我们还讨论了本章目前最优的技术进展。&/p&&p&第九章,结语&/p&&p&这一章节主要是简单介绍机器学习,尤其是强调那些统一框架下的概念。除了前文纵览机器学习的各种方法,我们在这年还提供了那些只是提到或简要描述的重要概念及其扩展方向,因此下面将提供前文没有介绍的重要概念列表。&/p&&p&隐私:在许多应用中,用于训练机器学习算法的数据集包含了很多敏感的私人信息,例如推荐系统中的个人偏好和医疗信息等等。因此确保学习的模型并不会揭露任何训练数据集中的个人记录信息就显得十分重要了。这一约束能使用差分隐私(differential privacy)概念形式化表达。保证个人数据点隐私的典型方法包括在执行 SGD 训练模型时对梯度添加随机噪声,该方法依赖于使用不同的训练数据子集混合所学习到的专家系统 [1]。&/p&&p&鲁棒性:已经有研究者表明不同的机器学习模型包含神经网络对数据集中很小的变化十分敏感,它们会对次要的、正确选择的和解释变量中的变动给出错误的响应。为了确保模型关于对抗样本具有鲁棒性,修正训练过程是具有重要实践意义的研究领域 [37]。&/p&&p&计算平台和编程框架:为了扩展机器学习应用,利用分布式计算架构和相应的标准编程框架 [9] 是十分有必要的。&/p&&p&迁移学习:针对特定任务并使用给定数据集进行训练的机器学习模型,目前如果需要应用到不同的任务还需要重新初始化和训练。迁移学习研究领域即希望将预训练模型从一个任务获得的专业知识迁移到另一个任务中。神经网络的典型解决方案规定了通用隐藏层的存在,即对不同任务训练的神经网络有一些隐藏层是相同的。&/p&&p&域适应(Domain adaptation):在许多学习问题中,可用数据和测试数据的分布并不相同。例如在语音识别中,模型学习时所使用的用户数据和训练后其他用户使用该模型所提供的语音数据是不同的。广义 PAC 理论分析了这种情况,其将测试分布作为测试和训练的分布差异函数而获得了泛化误差边界。&/p&&p&有效通信学习(Communication-efficient learning):在分布式计算平台上,数据通常被分配在处理器中,处理器中的通信造成了延迟与能耗。一个重要的研究问题是找到学习性能与通信成本之间的最佳折衷。&/p&&p&强化学习:强化学习是机器学习方法最近大获成功的根本核心,获得了玩视频游戏或与人类选手对决的必要技能。在强化学习中,一方想要学习世界中已观察到的状态 x 和动作 t 之间的最优映射,比如说 p(t|x, θ)。不同于监督学习,强化学习中最优动作不可知,机器会由于采取的动作而获得一个奖励/惩罚信号。其中一个流行的方法是深度强化学习,它通过神经网络建模映射 p(t|x, θ)。通过使用强化方法评估梯度并借助 SGD,这被训练从而最大化平均奖励。 &/p& &p&&/p&&p&&/p&&p&&/p&
选自arXiv机器之心编译参与:Panda、蒋思源、黄小天 人工智能技术已经成为当前技术变革的主要推动力之一,从计算机科学到工程学等许多科学技术领域都在竭尽全力想用自动化的方法创造更大的价值。要想做到这一点,工程师当然必须要对当前最具潜力的机器学习…
&img src=&/50/v2-de223a2ad8d980dd74b43e3aec688862_b.jpg& data-rawwidth=&1345& data-rawheight=&618& class=&origin_image zh-lightbox-thumb& width=&1345& data-original=&/50/v2-de223a2ad8d980dd74b43e3aec688862_r.jpg&&&p&机器之心整理&/p&&p&参与:机器之心编辑部&/p&&blockquote&机器学习日益广为人知,越来越多的计算机科学家和工程师投身其中。不幸的是,理论、算法、应用、论文、书籍、视频等信息如此之多,很容易让初学者迷失其中,不清楚如何才能提升技能。本文作者依据自身经验给出了一套快速上手的可行方法及学习资源的分类汇总,机器之心在其基础上做了增益,希望对读者有所帮助。&/blockquote&&p&先决条件&br&机器学习的基础是数学。数学并非是一个可选可不选的理论方法,而是不可或缺的支柱。如果你是一名计算机工程师,每天使用 UML、ORM、设计模式及其他软件工程工具/技术,那么请闭眼一秒钟,忘掉一切。这并不是说这些概念不重要,绝不是!但是机器学习需要一种不同的方法。如今 Python 如此流行的原因之一是其「原型设计速度」。在机器学习中,一种使用几行代码即可建模算法的语言绝对是必要的。&/p&&p&微积分、线性代数、概率论在机器学习几乎所有算法中不可或缺。如果你的数学背景很扎实,请跳过这一章节。如若不然,那么重新温习一下这些重要概念也不错。考虑到理论的数量,我并不建议大家从大部头开始。尽管一开始可以用它查询具体概念,但是初学者先关注简单的话题比较好。网上有很多好的在线资源(比如 Coursera、可汗学院或优达学城),实用且适合各种背景的人群。但是我建议从提纲之类的简明书籍上手,其中所有核心概念均被涉及,次要概念可在需要的时候自行查询。这种方法虽然不够系统,但却避免了这样的缺陷:大量晦涩概念使得没有扎实理论背景的人望而却步。&/p&&p&初学者最好先学习下列内容:&/p&&p&概率论&/p&&ul&&li&离散型和连续型随机变量&/li&&li&主要分布(伯努利分布、二项式分布、正态分布、 指数分布、 泊松分布、Beta 和 Gamma 分布)&/li&&li&矩估计和最大似然估计&/li&&li&贝叶斯统计&/li&&li&相关性系数和协方差(Correlation and Covariance)&/li&&/ul&&p&线性代数&/p&&ul&&li&向量和矩阵&/li&&li&矩阵的行列式&/li&&li&特征向量和特征值&/li&&li&矩阵分解(如 SVD)&/li&&/ul&&p&微积分&/p&&ul&&li&极限与导数&/li&&li&微分和积分&/li&&li&数值计算与最优化方法&/li&&/ul&&p&网上有很多免费资源,比如&/p&&ul&&li&《概率论入门》,Grinstead、Snell 著(&a href=&/?target=https%3A//www.dartmouth.edu/%7Echance/teaching_aids/books_articles/probability_book/amsbook.mac.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&dartmouth.edu/~chance/t&/span&&span class=&invisible&&eaching_aids/books_articles/probability_book/amsbook.mac.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&)&/li&&li&《线性代数入门》,Wise、Gallagher 著(&a href=&/?target=http%3A//www.stat.columbia.edu/%7Eliam/teaching/4315-spr06/LinAlg.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&stat.columbia.edu/~liam&/span&&span class=&invisible&&/teaching/4315-spr06/LinAlg.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&)&/li&&li&《微积分入门》,Heinbockel 著(&a href=&/?target=http%3A//www.math.odu.edu/%7Ejhh/Volume-1.PDF& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&math.odu.edu/~jhh/Volum&/span&&span class=&invisible&&e-1.PDF&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&)&/li&&/ul&&p&维基百科上也有很多好资源,对方程、定理等进行了清晰易懂的解释。&/p&&p&机器之心也介绍过许多数学基础与概念:&/p&&ul&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D2%26sn%3D5ec882af34cc%26chksm%3D871b28a4b06ca1b2ffa71d2dbacffdecc2c2a2f3e02ecscene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&基础入门:深度学习矩阵运算的概念和代码实现&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3D0c57ba70ec4ab61c996d44%26chksm%3D871b1ecfb06c97dd3e74a2b8c41254f0efc2dd88d2e89eec3bfac5da089f28c398%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&想了解概率图模型?你要先理解图论的基本定义与形式&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3D2a4cf2be611cb32da5d245cbchksm%3D871b2e21b06cae2eddfba9b6b232efcd31a1f191eafd7%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深度神经网络中的数学,对你来说会不会太难?&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D4%26sn%3D947ac4fb6765797bac76ae6c6c395c14%26chksm%3D871b28d6b06ca1c02db2790f5dae76a27c45e06edfbeffa9b99e08fde%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Reddit 热门话题:如何阅读并理解论文中的数学内容?&i class=&icon-external&&&/i&&/a&&/li&&/ul&&p&机器学习主要需要的数学基础就是微积分、线性代数、概率论,我们感觉只需要掌握大学中常见的高数、线性代数、概率论与数理统计三门课程,基本上概念的理解就没什么问题了。如果再学一点数值计算和最优化等,我们基本上就能理解机器学习的学习过程推导。&/p&&p&机器学习方法建议(面向初学者)&/p&&p&特征工程&/p&&p&开始机器学习的第一步是理解如何评估和改进数据集的质量。管理特征的类别和缺失、归一化和降维(PCA、ICA、NMF)是大幅提高算法性能的基本技术,而且还有助于研究如何将数据集分割成训练集和测试集、如何采取交叉验证来取代传统的测试方法。&/p&&p&机器之心也曾详解过特征工程如 PCA 降维算法的详细理论与推导,当然我们还介绍了其它有关特征的概念:&/p&&ul&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D4%26sn%3Dfabfchksm%3D871b2d6db06ca47b9b8eaf7e755a5e49e55f9b7dfa9fcae77f565%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&从特征分解到协方差矩阵:详细剖析和实现PCA算法&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3D8b9e10a0c%26chksm%3D871b2e7eb06ca7681edd3243adeb83c94b323f903aa925e3a7b8a53a17bb7e69238a%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&基于TensorFlow理解三大降维技术:PCA、t-SNE 和自编码器&i class=&icon-external&&&/i&&/a& &/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D3%26sn%3Dcf78cd60c5df87bb20a1ed59%26chksm%3D871b2f5db06ca64b94a89bcfcd43a79fdaf045a94a00feabe54f0%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&似乎没区别,但你混淆过验证集和测试集吗?&i class=&icon-external&&&/i&&/a&&/li&&/ul&&p&Numpy:Python 数值计算之王!&/p&&p&使用 Python 时,Numpy 不仅仅是一个库。它是几乎所有机器学习实现的基础,因此了解它的工作原理、关注向量化和广播(broadcasting)是非常必要的。这些技术可以帮助加速大多数算法的学习过程,利用多线程和 SIMD、MIMD 架构的力量。&/p&&p&官方文档已经很完整了,不过,我还建议大家看一下以下资源:&/p&&ul&&li&《Python 数据科学手册:数据使用的核心工具》,VanderPlas J. 著&/li&&li&《Python 科学编程入门书》,LangTangen P. H. 著&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D2%26sn%3D8aac55a04ca9aabd774c8b813ea50494%26chksm%3D871b288cb06ca19a424d929d32fd54e462dc62d3a25fafscene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&维度、广播操作与可视化:如何高效使用TensorFlow&i class=&icon-external&&&/i&&/a&&/li&&/ul&&p&数据可视化&/p&&p&Matplotlib 即使不是纯粹的机器学习话题,了解如何可视化数据集也很重要。Matplotlib 可能是最广泛使用的解决方案:Matplotlib 易用,允许绘制不同种类的图表。Bokeh 和 Seaborne 提供了有趣的替代方案。不必要彻底了解所有包,但是了解每一个包的优点和弱点还是很有用的,可以帮助你选择合适的包。&/p&&p&了解 Matplotlib 细节的资源:《掌握 Matplotlib》,McGreggor D. 著&/p&&p&线性回归&/p&&p&线性回归是最简单的模型之一,可以把它作为一个优化问题来研究,该问题可通过最小化均方误差而得到求解。该方法虽然有效,但是限制了可利用的可能性。我建议还可以把它当作贝叶斯问题,使用之前的可能性展示参数(比如,高斯分布),优化变成了最大似然估计(Maximum Likelihood Estimation,MLE)。即使这看起来更加复杂,但该方法提供了一个可供几十个其他复杂模型共享的新方法。&/p&&p&Coursera 上介绍贝叶斯统计的课程:&/p&&ul&&li&《贝叶斯统计:从概念到数据分析》(&a href=&/?target=https%3A//www.coursera.org/learn/bayesian-statistics/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&coursera.org/learn/baye&/span&&span class=&invisible&&sian-statistics/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&)&/li&&li&《贝叶斯统计:技术与模型》(&a href=&/?target=https%3A//www.coursera.org/learn/mcmc-bayesian-statistics& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&coursera.org/learn/mcmc&/span&&span class=&invisible&&-bayesian-statistics&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&)&/li&&/ul&&p&以及这两本书:&/p&&ul&&li&《思考贝叶斯》,Downey B. A. 著&/li&&li&《黑客的贝叶斯方法》Davidson-Pilon C. 著&/li&&/ul&&p&包括线性回归在内,机器之心曾介绍了一些解决回归问题的方法(后文提供了 CART 算法进行回归分析):&/p&&ul&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3Dc26b56e320e8abab053ad24bd73e52b6%26chksm%3D871b24b0b06cada6da34fd3a0240acbcbd9bebbscene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&初学TensorFlow机器学习:如何实现线性回归?&i class=&icon-external&&&/i&&/a& &/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3D7b5efae26f862b286cfc462eae133c75%26chksm%3D871b25e0b06cacf68cf70b171e63fabee5bb%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现)&i class=&icon-external&&&/i&&/a&&/li&&/ul&&p&线性分类&/p&&p&通常情况下,Logistic 回归是最佳起始点,也是研究信息论进而了解信息熵、交叉熵和互信息的好机会。类别交叉熵(Categorical cross-entropy)是深度学习分类中最稳定、使用最广泛的代价函数,一个简单的 logistic 回归可以展示它是如何加速学习过程的(与均方差相比)。另一个重要的话题是正则化(Ridge、Lasso 和 ElasticNet)。很多情况下,人们认为它是一种提高模型准确率的深奥方式,但是它的真实意义是更准确,在具体实例的帮助下变得易于理解。我还建议刚开始的时候,把 logistic 回归当作一个简单的神经网络,可视化(以 2D 实例为例)权重向量在学习过程中的移动轨迹。&/p&&p&我还建议本节应包括超参数网格搜索。网格搜索不在没有完整了解的情况下尝试不同的值,而是评估不同的超参数集的性能。因此,工程师可以将注意力集中在可达到最高准确率的组合上。当然还有更加强大的贝叶斯优化方法,即利用先验知识逼近未知目标函数的后验分布从而调节超参数的方法。&/p&&ul&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D3%26sn%3D557c6978fa2cdf1afedbf7%26chksm%3D871b2a73b06cabb49feffaea1ac5aabaca34a%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&从头开始:用Python实现带随机梯度下降的Logistic回归&i class=&icon-external&&&/i&&/a& &/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D3%26sn%3D842cdf4afb9c1c6c8b0fa935b576ff41%26chksm%3D871b55bee87dcd09faef6b89088acfccd8aa10a404ad572e63ded%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&如何通过牛顿法解决Logistic回归问题&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D2%26sn%3D5da6789719cdc3785cae%26chksm%3D871b29c5b06ca0d3e09f00691c0eff7f9c64fd9ef08266a78eedf19b8fc0d739%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&拟合目标函数后验分布的调参利器:贝叶斯优化&i class=&icon-external&&&/i&&/a&&/li&&/ul&&p&支持向量机(SVM)&/p&&p&支持向量机提供了不同的分类方法(包括线性和非线性方法)。该算法非常简单,具备基础几何知识的人也可以学会。不过,了解核支持向量机的工作原理非常有用,因为它会在线性方法失败的时候展示出其真正实力。&/p&&p&一些有用的免费资源:&/p&&ul&&li&《支持向量机简明教程》,Law 著&/li&&li&核函数方法,维基百科词条&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D2%26sn%3Ddadc2ac166249dbb77ae87%26chksm%3D871b23f4b06caae2c1eaf4c2b81af316bb194d153d3bcb8fafb768bd04daba2efd95%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&详解支持向量机SVM:快速可靠的分类算法&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D2%26sn%3D328ba8aadbc6%26chksm%3D871bf155faf0f1e6d6a62f9d014bcaa85f57abc9f0f9ff0ab0ac608b%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&详解支持向量机(附学习资源)&i class=&icon-external&&&/i&&/a&&/li&&/ul&&p&决策树&/p&&p&决策树提供了另一种分类和回归的方法。通常,它们不是解决复杂问题的首选,但它们提供了完全不同的方法,即使是非技术人员也可以很容易理解,该方法还可以在会议或演示中可视化。&/p&&ul&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D4%26sn%3Dcfafe08ac3ccddd%26chksm%3D871bad6279bccdaa9bca%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&教程 | 从头开始:用Python实现决策树算法&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3D7d78fbddbd79cb864e12%26chksm%3D871b2fb1b06ca6a7dbc4f8f057f17e737d7dbc7d7ced78a2e12dcefcddscene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&从决策树到随机森林:树型算法的原理与实现&i class=&icon-external&&&/i&&/a& &/li&&/ul&&p&集成学习一览&/p&&p&在理解了决策树的动态特性以后,研究集成训练树的集(集成)来提高整体准确率的方法很有用。随机森林、梯度树提升和 AdaBoost 都是强大的算法,且复杂度较低。对比简单的树和提升方法与 bagging 方法采用的树的学习过程挺有趣的。Scikit-Learn 提供了最常见的实现方法,但是如果你想更好地驾驭这些方法,我还是建议你在 XGBoost 上多花些时间,XGBoost 是一个既适用于 CPU 又适用于 GPU 的分布式框架,即使在较大的数据集上也能加速学习过程。&/p&&ul&&li&&a href=&/?target=http%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D2%26sn%3Dde70c939d704f3fchksm%3D871b2a80b06ca396e3a71fdfdfef9e818ca337c6e1cd14b%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&从Boosting到Stacking,概览集成学习的方法与性能&i class=&icon-external&&&/i&&/a&&/li&&/ul&&p&聚类&/p&&p&当开始聚类方法的学习时,我的建议是从高斯混合算法(基于期望最大化/EM)学起。虽然 K-均值聚类要更加简单易懂(也是必须要学习的),但是高斯混合算法为我们提供了纯粹的贝叶斯方法,在其他类似任务中也十分实用。其它必学的算法还有层次聚类(Hierarchical Clustering)、谱聚类(Spectral Clustering)和 DBSCAN。这对你了解基于实例的学习或研究 K-近邻算法(既适用于有监督又适用于无监督任务)也是有帮助的。谱聚类的一个有用的免费资源是:&/p&&ul&&li&《谱聚类教程》,Von Luxburg U 著&/li&&/ul&&p&聚类算法是无监督学习中的代表,机器之心也曾详细地介绍过各种聚类方法与实现:&/p&&ul&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3Ddb7b6f92466bdf146ac9bc%26chksm%3D871b1ea8b06c97beec50c7ac984bdab44bd11cfa411fab0e%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器理解大数据的秘密:聚类算法深度详解&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D4%26sn%3Dd7bdbffa22e553ad47f0233a%26chksm%3D871b2fc0b06ca6d6a3ff662ea3a7e5fcd35d989b90e%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&综述分类、聚类和信息提取算法在文本挖掘领域内的应用&i class=&icon-external&&&/i&&/a& &/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D3%26sn%3D7df9c0cb6abddb724e7e589ad5d0ea96%26chksm%3D871b2c98b06ca58ec4bbe31c68edbff446%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&如何用Python和机器学习炒股赚钱?&i class=&icon-external&&&/i&&/a&&/li&&/ul&&p&神经网络入门&/p&&p&神经网络是深度学习的基础,你可以在单独的课程中学习神经网络。但是,我认为理解感知机、多层感知机以及反向传播算法的概念也很有帮助。Scikit-Learn 提供了一个实现神经网络的简单方法,但是,开始探索 Keras 也是一个好主意,Keras 是一个基于 Tensorflow、Theano 或 CNTK 的高级架构,允许使用最少的努力对神经网络进行建模和训练。开始神经网络学习的一些好资源:&/p&&ul&&li&《人工神经网络基础》Hassoun M 著&/li&&li&《Keras 深度学习》Gulli A.、 Pal S. 著&/li&&/ul&&p&目前最好的深度学习书籍可能就是:&/p&&ul&&li&《深度学习》,Goodfellow I.、 Bengio Y.、Courville A. 著&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3D4b6fba618d2aead27306%26chksm%3D871b34f4b06cbde2e0af7a8ffbd35792dd3eaa719e94de67a581b906%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&最全的DNN概述论文:详解前馈、卷积和循环神经网络技术&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3D1ac201e15b43339efab9%26chksm%3D871b2b51b06ca247ac1fdc939e39cfc44cbc2ee25e1b105cf9a582395ddbcdd43cfe18fecd40%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器之心GitHub项目:从零开始用TensorFlow搭建卷积神经网络&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3Dbd8bbf9ead95fd%26chksm%3D871b1e0ab06c971c0bf6accb6f9d108d42f01%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深度神经网络全面概述:从基本概念到实际模型和硬件基础&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3D8f78edc716bbdf62a93298%26chksm%3D871b2f3bb06ca62d60632da0faebbee1934ebec300dc4bbace4b5e6f79daaeed%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&训练的神经网络不工作?一文带你跨过这37个坑&i class=&icon-external&&&/i&&/a& &/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D2%26sn%3Da5e37e1d653bbcce3920%26chksm%3D871b2fc0b06ca6dc5ae3dfde3fd3bfdbb7b09fb9b%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&TensorFlow从基础到实战:一步步教你创建交通标志分类神经网络&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3Dd427fbed31d%26chksm%3D871b0d88b06c849eed54e5febbbc04c48c034%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&神经网络快速入门:什么是多层感知器和反向传播?&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D3%26sn%3D7c6db64c4b865b304a94e%26chksm%3D871b2ab3b06ca3a55d4dd6f3fddd6f93be392ffe1c2a5%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&教程 | 如何用30行JavaScript代码编写神经网络异或运算器&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D4%26sn%3D274c6be3b4%26chksm%3D871b2be7b06ca2f198d34f526b7dc5b50ee4ece24f820b52c86d183d42c2a469c3%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&神经网络调试手册:从数据集与神经网络说起&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D2%26sn%3Deb2e1fe80f890e59bdefb7%26chksm%3D871b22feb06cabec52efdfb93ddf89f9b0b1a496a5e7a45b6%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&神经网络基础:七种网络单元,四种层连接方式&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D3%26sn%3Dbedfceccefe1%26chksm%3D871b1a93b06cc5ed362ebb8b4b6d321e9bc7132bd24cb%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&如何从信号分析角度理解卷积神经网络的复杂机制?&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3Dca1bfc37deae%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&神经网络架构演进史:全面回顾从LeNet5到ENet十余种架构(附论文)&i class=&icon-external&&&/i&&/a& &/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3D9f5d969b3f9eac2aedc95%26chksm%3D871b18cdb06c91db52ace594dcfd8ff1dcd952dd8dcfaeb95415cb%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&麻省理工解读神经网络历史,三篇论文剖析基础理论&i class=&icon-external&&&/i&&/a&&/li&&/ul&&p&最后,我们将介绍部分机器之心曾发过的综述性技术文章或论文,并希望这些文章能对大家全面理解各种方法有所帮助:&/p&&ul&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3Dedd5cf01d2be07b435eb312%26chksm%3D871b19d5b06c90c366c2a873ca1156ae61cef284c52c6bbfbb8a0f%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&自动驾驶计算机视觉研究综述:难题、数据集与前沿成果&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D2%26sn%3D6faa5fd55fc39dchksm%3D871b1ddfb06c94c9e11d3afce06a4e021fcd8eaab858c7f08ab9c939c4ad130e4b2%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&一文帮你发现各种出色的GAN变体&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%2

我要回帖

更多关于 ai challenger 知乎 的文章

 

随机推荐