人脸识别图像库图像库,最好是有不同角度,光照,表情的,谢谢大家

#北京交警提示# 今天是2018年12月18日星期二,机动车限行尾号是3和8请注意遵守!


我们是北京市公安局朝阳分局网络安全保卫大队在互联网上的执法账号。我们的任务是依据相關法律法规在互联网虚拟社会“巡逻”及时制止违法犯罪信息在网上传播。根据《治安管理处罚法》、《计算机信息网络国际联网安全保护管理办法》利用互联网制作、复制、传播不实信息,散布谣言等扰乱社会秩序的都属于违法行为。

Robin.ly 是一个全新的视频内容平台旨茬为广大工程师和研究人员提高对商业、创业、投资和领导力的理解。本期是Robin.ly创始人Alex Ren采访Facebook

Director黄毅博士,他将和大家分享他们的技术和产品鉯及在领导力方面的经验稍微介绍一下Robin.ly,它是一个新的视频内容平台目的是为了提高工程师和研究人员对于Al,leadershipentrepreneurship三方面的理解。邀请知名的创始者投资人,AI领域的科学家以及一些leader通过他们的分享使得大家对以上内容有更深的认识。稍微介绍一下黄博士的背景:2011年毕業于Michigen system能不能给大家解释一下,为什么当时选择这个论文题目这个题目跟现在的工作有什么关系?

黄毅我在graduate school的时候一直对理论研究比較感兴趣所以研究生期间做了compiler systems,博士阶段做concurrent system是认为这方面内容比较困难当时很多人在创造concurrent system的时候经常出错。比如死锁,rase condition还有饥饿之類的事情经常发生百分之九十都是错误,但做系统的人并还不知道即使知道,debug也很艰难非常痛苦。所以当时就希望把类似问题解决┅下Idea很简单,我们在创造concurrent system的时有程序本身的逻辑,concurrent system也有同步的逻辑之所以经常出错,是因为这两个逻辑在交叉同时进行所以我论攵的想法就是,对于同步的逻辑我们让它自动化。那么程序员只需要写concurrent system本身的functional logic就可以所以当时修改了一些java的compiler,然后把这部分同步的逻輯自动生成当时的难点是证明生成出的逻辑正确无误。

Alex:跟您现在做的工作有什么关系吗比如ads这方面?

knowledge来讲没有任何关系。因为现在莋Ads基本上不再接触任何同步系统。我做engineer的时候还是写过一些同步的系统但是因为论文题目很难,所以做论文期间很多在研究生期间培养的能力现在还可以借鉴。尤其是现在做manager时候的多重能力比如communication的能力,写作的能力解决问题的能力。还有resilience——如果可以顺利读完五陸年博士并且毕业还有什么东西能难得倒你呢?所以我现在也一直在从这些能力中获益 

Alex:您博士就读期间曾经在Bell LabFacebookGoogleOracle等地方实习过洏这些公司中很多产品的方向也不尽相同。是什么让您后来选择了Facebook您加入时,Facebook还没有上市 

黄毅:Facebook是2012年上市,我大概是前一年加入┅开始实习的时候还要早一年。不过当时比较年轻并没有想太多,也不知道上市是什么意思也不知道对自己的career path有什么影响。当时只是覺得博士毕业之后的第一份工作应该找一个能让自己学到更多内容的地方去。现在回头想想这四段实习的经历里,在Facebook的那段时光最辛苦每天有干不完的事儿,要很晚才能休息

黄毅:确实,challenge最大每天工作很努力,但职位要求还很高当时有一件事情很有意思。有一段代码我怎么也弄不进去改了又改,每次都被code reviewer打回来Code reviewer很负责,每次都非常耐心地讲解但是是我自己没有达到这个bar。所以自己当时非瑺痛苦最后得了胃溃疡,还被送到了急诊室但是从急诊室出来,code依然不行最后百般努力,好不容易把code做好了

Alex我相信换做很多人會知难而退,为什么要选择Facebook

黄毅:因为我当时的信念就是,what doesn’t kill you makes you stronger所以当时还是觉得哪里能学到更多的东西,就应该加入哪个地方当時四个公司比较了一下,Facebook经历最苦公司又最年轻,但觉得很适合我所以就开始了尝试。 

黄毅:选Ads team也是出于同样的考虑 当时希望做一個不一样的东西。那个时候我做过不少事情,mobileinfrastructure,产品都尝试过只有ads没有做过。开始对ads比较藐视认为没有难度,不过是显示一个图爿加一点文字但是我发现ads组的员工们好像也很痛苦。好奇心驱使我找到我认为简单别人觉得痛苦的原因。所以就决定尝试一下我认為即使失败,我也不是唯一一个感到痛苦的人

Alex七年里您大概deliver了一些什么样的产品,我们还能看到吗我们用到的哪些产品是你们team做嘚? 

黄毅:我们做的很多产品现在大家都正在使用比如我们做整个Ads delivery的一系列产品,因为在create Ads的时候有若干个步骤需要去set

Alex:您认为这些产品裏面有哪些对于Facebook贡献最大? 

需要先回顾一下历史背景大家都认为Facebook广告做得好,好在哪里好在内容比较relevant。不像在internet上看到的很多广告比較intrusive之所以可以做到相关性是因为,Facebook有大量的关于用户的data所以我们能够知道什么样的message可能对用户来说更相关。data的故事非常有意思比如,我们知道Facebook有很多的data但是若干年前,Facebook的data其实很多都局限于自己本身的data类似于pages information。当时Facebook认为这类data比较unique而且海量所以认为这些已经足够了。那个时候我们有几个人觉得其实还有很多Facebook以外的data更有用的,或者说equally有用如果拿进来跟Facebook的data能够fuse,可以使ads变得更好所以当时的问题就昰想办法把这些外部的数据也能拿进FB。所以当时我们有一些比较controversial的想法有人觉得有用有人觉得没用,但是无论有用还是没用都没有人會主动提供这些data。所以我们build了很多产品想办法把这些data onboard到Facebook上。Onboard以后再转换成足够多的价值返回给用户。我认为那个阶段build的一些产品应该昰对Facebook用处最大的产品 

Alex:因为有个方向性的指引? 

黄毅:对 相当于把Facebook data的gate打开。而且从现在看来那一步走得没错因为现在Facebook从外部拿来的數据的价值远远大于本身自己的data。 

Alex能不能分享下整个ads delivery的流程这个流程里边哪些部分是比较难或者说存在哪些技术难点是不是也用到叻一些新的比如machine

从这个角度看,Facebook的Ads包括所有的ads系统,都是一个推荐系统对我们来说难点很多。个人而言challenge比较大的地方是causality。有很多時候我们不是特别知道recommender 系统就会找到足够多的optimized events效果会比较好,但是只局限于它所知道的这部分东西但是如果说advertiser没有提供足够多的信息,某些信息被忽略某些setup不正确,那么初始信息就不够准确而系统是依据初始信息,在optimized setup下找到最优解这个最优解明显也不可能是真正嘚最优解。我们没有办法告诉advertiser怎么修改setup才能找到更好的解所以这个是比较难的部分。如果大家知道贝叶斯网络的话应该都会知道Judea

是InternetAI。這里面涉及到两个团队的另一个差别从广告来说,更多的是解决InternetAI层面的问题;而AML团队解决的问题应该处于Wave ThreePerception AI,比如说speech recognition人脸识别图像库識别等。现在ads里还没有大量采用这些技术但是未来应该会越来越多。 

design有着非常多的经验应该是做得最好的公司之一您也在做这方面嘚工作做一个产品从idea到最后的实现,您经历了什么过程我想您一定会关注user

黄毅:这个问题比较complex。我觉得要先看一下产品的复杂性或鍺是idea的复杂性。如果一个idea很简单可能一两个人花一两个周就能完成,那么直接尝试一下就可以但是如果一个idea很复杂,或者需要几十个囚去做有不同的function,需要designer以及data page并且要花很长一段时间才能做出来。所以大概什么时候决定去做某一个idea大概分以上两种情况。Facebook会有很多公司层面的culture上的processes比如说像hackathon,基本上一天两天,三天就可以尝试这种小的idea把第一个类别的问题解决了。对于第二个类别会更复杂一些。比如有一个idea怎么决定它是做还是不做,或者怎么样去做需要考虑什么样的因素?我们一般会考虑当start这个project的时候有哪些因素;在執行的时候,需要想些什么另外一个可能是,我们还要决定什么时候kill掉它在开始时就会问一些问题,比如产品的core value是什么?是它build了一個新的capability以前没有,还是说improve了现有的一个capability或者replace了一个现有的产品。这些capability都不同对于每一个不同的情况,我们筛选的标准也随之而变 

峩们还会去问:谁来使用这个产品?而且要非常specifc不是简单问谁使用,因为所有广告组的产品都是由广告商来使用而是弄清楚具体使用嘚群体。如果说用到产品的人是small businesses他们可能并没有太多的experience,或者是technology上面的support我们在build这样的产品的时候就要考虑越simple越好,越intuitive越好这样的user experience也會很好。如果我的用户群体是agencies他们本身非常sofisticated,又有自己的团队会全天候使用产品。他们的诉求就是efficiency和convenience用户体验并不很重要。他们需偠bulk的editingbulk的creation,而不是一键式的操作另外一个不应该忽视的就是,当决定要做且觉得这个产品有用而且知道如何去做时,要认清有没有opportunity cost渻下来的resource是不是可以分配给其他更好的开发项目。这个决定往往很难做如果没办法做出一个重要的决定,不要卡在这里而要放手去做。 如果对于这个问题有很明显的答案比如,如果不做这个我肯定会去做另外一个。那么这个产品的priority就不是一个right priority 

黄毅Good question。 因为Facebook是一个bottom up嘚公司所以我们想要做的是让一线的员工能够own自己的decisions。我们想让他们觉得做这个产品是为了他们自己来做是他们自己的idea,而不是说是洇为leadership让他们做而且我们还希望一线的员工来为final success take their responsibilities。所以一般都是团队决策我们起到的角色更多的是指导一线的员工,让他们自己考量后莋出决定但如果说一线员工都觉得不make sense,但我们还是想做它那我觉得如果员工愿意去承担责任,而且认为这个成本是reasonable的——花费的时间昰一两个星期两三个星期,甚至一个月我们可以承担这个损失,那我们也会愿意去做我认为passion非常重要。 

Alex:您最开始进入工业界是以┅个engineer的角色后来成为了leader。您觉得成为leader哪些素质比较重要比如,领导一个产品的团队build一个好的产品不仅仅是feature好,而是说从初始做产品就要在正确的轨道上例如manage好一个团队和process这七年以来哪些是您learning

黄毅:我认为build一个产品和build一个technology有很大区别。Build一个technology更像解决一个数学问題build一个产品更像创造一个艺术品。解决一个数学问题和创造一个艺术品用到的是我们大脑不同的部位。解决数学问题需要一个逻辑思維;创造艺术品需要creative mind所以creativity会更重要。如果我们用解决数学的思维来解决产品的问题或者说创造一个艺术,那我认为很多问题没有办法解决也没有办法定义艺术品的价值,产品也是一样的道理当然,产品也有它自己逻辑的一部分我认为比较重要的是,怎么样能够激發领导的创造性思维并且让领导能够创造一个这样的团队文化,使每一个员工都能继续保持或激发自身的创造力要想达到第二点,领導需要有很强的包容性而且还需要inspirational,因为需要inspire 团队里人的creativity另外也需要去保护这些创意。刚才我提到了passion很重要也提到了Facebook是比较扁平化嘚结构,两者结合就是想要让员工们有更多的idea going up那么如果我们想让一线员工能够own他们自己的decisions,我们就需要去尊重他们的passion如果我把他们的passion烸次都kill掉,那他们最后拥有的就不是自己的decision而是leadership的decision。所以怎样去维持员工自己的passion就变得尤为重要所以领导需要去创造一个可以保护团隊创造性的环境。 

innovation里边有很多innovative的东西会比较有争议,因此就会带来conflict第一,如果team里有很强的conflicts那您作为一个leader怎么去manage?第二如果您本身僦不认同很多的ideas您怎么去manage

黄毅:两个都是很好的question。先说第一个如果team里有很多争议怎么去manage。我自己并没有很强的opinionteam里很多不同的人有鈈同的opinion,你想知道我怎么去manage 

Alex回到您前面的问题,需要把外部的data fuse进来时有些人认为不需要这么做。这应该就是一个conflict 

data,这是一个unknown第②个就是没有渠道获取data,就不要去尝试了因为data对任何business来说都是最重要的一部分。其实第二个问题并没有被validate而第一个我们是完全不知道。当不知道的时候到底应该stop还是try呢?Facebook的culture是move fastbe bold。这实际上就是大家都认可的principles但有的时候针对具体的事情可能经常会被忽略掉。如果大家嘟对这件事不认同那我们可以step back,看看到底是什么原因如果原因是unknown,我们就思考下如何在reasonable的时间内把它know一下如果我们发现这个东西没囿办法很快知道,那就再back to Facebook culturebe bold,所以还是应该尝试一下

 Alex:归根结底,你们有一种跟product相关的culture你可以找到一个principle,然后用这样的一个态度——鈈管是去take

黄毅:我认为不同的leader有不同的style不过我的确是这样的style。 

impact而忽略了其他东西你可以有很大的impact,但是忽略了团队里的人如果每个囚都没有成长,那么今年这些人能做的事情和去年能做的事情没有变化即使你在make impact,但意义截然不同所以我更希望团队里的人每天都不┅样,要么是想法不一样要么是做法不一样,提升他们的capacity这样天长日久,他们会达成更大的影响

contributor,到manager再到leader。您对他们有什么建议您当年在transition的过程中,觉得什么比较重要举个例子,比如说我看到很多人做IC的时候做的非常好因为他只要manageyourself就行了。但是做了别人的manager之後发现跟之前的角色有很多的区别别人的个性跟他也不同,还有很多的objection有些时候你还觉得别人做的不好,你想亲力亲为自己去做这種情况就不是handle

黄毅:我对你刚才提到的内容非常有共鸣。我认为一个人在寻找自己的career path的时最重要的是motivation。比如在一个critical moment,到底是选择做IC還是选择做manager,还是选择做leader 我觉得要想清楚到底为什么要选择做manager。我听过一个很普遍的说法:认为做管理好像career path发展得更快另外一个理由昰,觉得做manager能够有更多的power可以make更多的impact。我认为这些想法都对但还是依赖于具体怎么去做,这很关键

我看到过很多比较失败的例子,怹们想做manager是因为他们觉得做manager可以让他们的career path更快因为看到很多人都是这样走的,他们也想这样走但如果这样想,可能就忽略掉了可能的玳价做manager是有代价的,做IC的时候用到的是technical skills。Technical important这些技能可能很陌生,从来就没有接触过那么学这些技能是要付出代价的,会make很多mistakes会偅新学很多的东西,有时候甚至要unlearn很多东西那到底愿不愿意学呢?我觉得事先要思考清楚而不是只看到做了manager对career path有帮助。所有做manager 以后career path发展比较快的都是因为他们付出了很多的代价来重新学这些skills,也犯了很多错误这里有很多人的career path并不快,但是他们也愿意继续付出代价来學这些技能因为他们觉得这或许对人生大有裨益。但是如果只看到了受益的一面没有正确的motivation,就会很失望

Alex:我听说您是马拉松爱好鍺,也是铁人三项爱好者这些爱好对您的工作或者生活有什么帮助?为什么一定要跑马呢

黄毅:我跑马不是为了工作,这是我的一个愛好就像我一开始说的,当初为什么选择Facebook为什么选择ads,就是觉得这种选择对自己是一种挑战我的model是what doesn’t kill you makes you stronger。我认为跑马可能是最安全的challenge最不容易被kill掉,但是也可以说是最大的一个challenge在跑马的过程中可能会对自己的意志,对自己的秉性做出很大的调整另外可能对工作有矗接好处的是跑马会使睡眠变少。因为你的新陈代谢增强就不需要睡得很久。有很多人问我你有时间跑马吗?其实少睡两个小时就能哆跑两个小时还有更好的精力工作。

 Alex:您事业上的下一个目标是什么不是说specific的目标,而是对您个人不管是skill还是knowledge各方面比较有挑战的昰什么?

 黄毅:这是我的第一个full-time job我只工作了大概七年多,尽管也快40岁了但依然觉得自己很年轻。现在可能并没有特别宏远的目标我認为自己还处于学习阶段,能take更多的challenge想把我走过的地方变得更好一点。Be a better person因为我认为作为一个leader来说,这是最重要的领导自己需要成长,团队才能成长因为team其实把领导看作一个example,而领导实际上set up团队的ceiling所以想让团队成长就需要成为一个更好的 coach,想成为一个更好的coach就需要莋一个更好的人使自己的性格有更好的进步。从长远看我对AI的态度非常bullish,我认为AI potential

 Alex:其实反过来讲正式因为AI遇到了很多challenge,才需要build很多恏的productproduct很好的engineering出来。过去的产品很多都是算法之类,所以把您的经验和AI的算法以及技术方面进行结合是一个不错的方向。

 黄毅对没错。另外一个我比较关心的领域是教育我认为如果可以把education变得personalize,会使得教育更有效我们现在没有办法达到personalize的education因为personalize需要时间。人的時间有限但是机器不一样。如果AI可以把personalize去scale up起来应该是不错的方向。

experience和技术方面的一些难点也感谢他介绍了自己从ICleader的角色转换中的經验。尤其让我受益良多的是如何manage

通过爬取百度搜索获取城市面积

紸意上述代码有几个要注意的地方一是部分城市如自治县是不能加市进行搜索的因此要把市去掉, 从html提取的内容需要用正则进一步处理 百度搜索不同城市的城市面积xpath位置是固定的,但内容相对会有差异(读者可以亲自去实践下,这里不做过多笔墨)比如有些城市是平方公里,有些是万平方公里还有一些数字间分别用了中英文逗号分隔(中文逗号估计是不规范),这些情况均要考虑周全才可以获取到准確的面积上面相对较长的正则匹配就是覆盖这些情况。
上文已经获取到了每个城市的影院数量及相应经纬度为了与百度API 保持一致,会將获取的城市与百度API进行自校同时获取城市面积及影院密度,对应代码如下:

获取了城市影院数量与城市面积后就剩最后一步了,这裏需要用到pyecharts 说明下pyecharts是ecahrts的一个python接口,其可视化相对echarts的界面会少许多如果相绘制更高大上的GEO MAP建议直接调用 echarts,需要点精力
本文直接调用pyecharts接ロ代码实现如下:

可以发现就影院分布数量而言,排在前五的分别是上海(206)重庆(175),北京(160)深圳(153),广州(121) 上述结果与铨国一线城市一致。而重庆是因为面积大(接近一个省的面积)所以影院数量较大
另外看密度分布图而言,可以发现深圳的影院密度是朂高的达到766.21每万平方公里,其次是东莞中山与上海。

我要回帖

更多关于 人脸图像库 的文章

 

随机推荐