请问GPI体育教学成果现在有什么新的成果吗?

更多公众号:zhanhuixuexiao向学生、家长、校友及社会各界提供湖南省武冈市展辉学校的最新资讯,起到服务教育教学,联络广大家长、校友,宣传学校的目的。最新文章相关推荐搜狗:感谢您阅读【教学视角】新的体育测试标准出来了,但是你真的理解体育教育了吗?,本文可能来自网络,如果侵犯了您的相关权益,请联系管理员。QQ:大数据应用除了在体育项目中,还有哪些切身感受得到的应用案例?
根据的内容,德国足协与SAP公司合作,定制名为“Match In-sights”的足球解决方案,用以迅速收集、处理分析球员和球队的技术数据,基于“数字和事实”优化球队配置,提升球队作战能力,并通过分析对手技术数据,找到在世界杯比赛中的“制胜”方式。这是大数据研究和应用在足球领域取得的实质性成功。但目前来说,这仅仅是世界杯上的成功,是特例。除世界杯之外,在联赛当中,这样的大数据搜集、研究、分析,是不是也可以获得相似的成功?放到其他体育项目,比如NBA,能否有类似的大数据研发项目?抛开体育这一块(世界杯这个成功案例搞得大数据研发好像就是为体育领域定制的),其他行业有没有可能取得这样的突破?有没有一些实质性的研究结果和案例?
蟹妖。“大数据”(Big data),实际上意译作“高频复杂数据”更贴切一些,也更便于非从业者直观了解这个词的含义。( 就像firing
table指的不是火力程度的计数而是发射角度的计数一样,火力表的翻译平铺直叙但是并不达意思。)由于“大数据”的大并非指单纯的数据量庞大,即便是1DB大的数据库,如果仅仅是一张简单的二维表,里面填满唯一主键构成的简单数据,也没什么难以处理的,只要硬件设备能跟上,基本上中学生学过C也就足以处理这份数据了。并不需要整个社会这么大张旗鼓的研究和鼓吹。IBM定义“大数据”有4个V的标准(量级Volume,多样性Variety,价值Value,速度Velocity),这点毋庸置疑(当然,还有所谓的5V或新3V。强调Veracity),但是很多书籍上定义的量级Volume起始计量单位是PB(1000TB)起,那么现在绝大部分自称的“大数据应用”是不足以称之为大数据的。要知道,整个中国去年一年的数据产生量也仅仅是0.8ZB(800PB)。至少提问者提到的Match
In-sights软件产生的数据,是不够这个量级的。现在更多研究的有意义的“大”数据,更多的是针对不同独立的数据集(data set)进行合并分析,进而形成关联性和额外信息,用于现实,这是“大数据”的意义。纠结于定义大小之类的,并没有什么帮助。由于新的处理方法,普遍无法使用单纯的人工和原始的编程方式来解决,更多的需要是对不同类别的数据进行汇总进行处理,包括统计分析、建模、模拟抽样、乃至预测。SAS是代表作。数据处理的这种方式,其次才是大数据应用和采集的意义之所在。虽然人家谦虚的自称sequence retrieval。在这方面,美国的华莱士…哦不是,美国的科研机构比我们不知道高到哪里去了。所有具体研究“大数据应用”的专题,鲜少有自称“Big data”,或将其用作自己研究内容的关键词的。也因此,名义上的大数据科学或大数据工程,现在连纸上谈兵的资本都还不足。本身没什么理论支持,更谈不到一门学科。与传统的数据统计、数据分析之类的区分界线也很淡薄,更多的是具体案例的应用和应对。而现在最爱鼓吹大数据的,往往都是不从事具体工作的新闻工作者们。我见过的所有谈大数据的论文,也都是泛泛而谈,性质和科学研究没什么关系,主要是报道和命名性质的(这种论文是存在的)。真正涉及大数据的论文,则普遍在认真讨论方法而非数据形态。最多用到PB级别数据的工程论述,大多是地理类数据。这类数据一年就有数十PB产生。“智慧城市”的数据一个季度就是大约有200PB,每个高清摄像头一个月产生1.8TB的数据,每天北京市的视频采集数据量在3PB,一个中等城市每年视频监控产生的数据在300PB左右,国家电网年均产生数据510TB以上,而其他像搜索、地图、社交、影视娱乐类等互联网公司也拥有PB量级的数据储备(以上数据来自《大数据史记2013》)——但这不说明就是大数据。拥有和处理是两码事。或者说,前者应该叫海量数据,经过处理的海量数据才叫大数据。(所以通常自称大数据工程师或工作是大数据相关的,一般和骗子没什么区别,很难具体到某一方面的大数据业务,是屠龙之技。编造职位和过往履历时,要么说自己是大数据分析工程师,要么说自己是数据工程师,也能好很多。)提问者是从世界杯谈起的,那么先说不除了体育方面,因为提问者的距离没有任何内容——常见的体育运动方面“大数据”应用分为两部分,一部分是分析,一部分是预测。但是这两者说是数据工作也可以,没必要非说是“大数据”。量级也往往不够PB。体育类的数据分析应用,通常是由科研或学术机构发起的。这个行业最著名的会议叫做MIT
Sloan Sports Analytics Conference(,这个“斯隆”和伟大的爵士杰里·斯隆毫无关系)。主要参与人员由两类人组成:职业体育从业者,数据分析科学家。拓扑数据分析是最常见的分析方法。还有其他很多,包含的大量的人工智能、视觉仿真、人体运动学的科学在内。举个例子:图示就是一种将现实映射为模型化的拓扑分类方法,建模形成简单数据集的集合后进行下一步分析。这种方式是从医学来的,而非运动学首创。但是在体育运动学的分析计算时,大量应用了该方法。更简单的例子则是这样的:离篮板越远,前场篮板越不好抢——这是我们普通人的观感。每距离篮板多一英尺,拿下前场篮板的几率就会降低1%,但距离超过三分线时,几率重新变大。此外,90%投丢的球都可以在距离篮板11英尺的范围内拿下——这是科学家根据数据分析得出的结论。()如果你经常关注斯隆体育大会的NBA相关研究会经常看到这二位仁兄——Rajiv Maheswaran和Yu-Han Chang,他们有大量相关研究,甚至对NBA的镜头摆放和有效镜头也提出了自己的看法(),并且真的改变了大量数据软件分析公司的镜头使用方式。去年这俩哥们拉上一个叫做Jeff
Su的伙计组件了运动数据分析公司Second Spectrum,最常见的业务就是将运动追踪镜头捕捉的数据收集起来,然后让机器学习并分析,给出分析结果和结论。今年的斯隆大会,他们又做了篮板统计的量化分析的三种方法(《The Three Dimensions of Rebounding》,链接:),拿了大会的最佳论文奖。往往这类工作用于提供给非专业人士的复杂数据还需要一项工作:可视化。这个工作由软件公司来代为完成。还有一种分析,则是统计数据的量化评估。与前一种给出如何得出数据的分析不同,这种分析是利用已有的统计数据做结论。这工作其实和普通公司的量化评估没有两样,都是通过统计数据得出的结论。关于这类工作,
张公子曾经做过评议(),个人认为说的很对。如果实在是对这东西无感,直接看帅哥电影《点球成金》(Moneyball),奥克兰运动家队经理Billy Beane通过小球会取得成功的方法就是放弃普通球探方式,直接将数据化用到球队交易和选秀上,获得了创MLB历史战绩的连胜纪录。虽然有不少美化和过简单的镜头式语言表达,但是数据分析在21世纪开始正式成为北美职业体育的一项重要工作。而非单纯的赛后统计。最早最成熟的数据量化和这种可视化分析,都出现在美式橄榄球场上,早期的NBA统计,其实只有得分篮板助攻等很少的几样,所以张伯伦也没有完善的盖帽统计。现在球迷们也大都只关注老五样(得分、篮板、助攻、盖帽、抢断),然后还有出手数、命中率、出场时间之类的数据,能扯扯这些的,大概就算看球略入门了。然而根据这些统计数据进行的诸如PER、Efficiency、FantasyRating、+/-、TS%等等数据,则是从单纯的赛后数据列表上看不出来的,而是根据一系列制衡指标计算出来的。例如真实命中率(TS%)就是根据球员的所有得分(2分、3分、罚球)一并计算的:PTS / (2 * (FGA + 0.44
* FTA))这些是混几周论坛就能做到的数据球皮要能侃侃而谈的。而到了现在,数据量化到了什么地步呢?来看斯隆体育大会上的论文(2012年的最佳体育革新奖):Alagappan把球员分成十三类:进攻控球者——杰森特里和托尼帕克;防守控球者——麦克康利和凯尔洛里;综合控球者:贾米尔·内尔森和约翰·沃尔;投篮控球者——斯蒂芬库里和马努吉诺比利;角色控球者——阿隆阿弗拉罗和鲁迪费尔南德斯;三分篮板手——洛尔邓和蔡司·巴丁格;得分篮板手——德克·诺维斯基和阿尔德里奇;三秒区保护者——坎比和泰森钱德勒;罚球线保护者——凯文·勒夫和格里芬;NBA一阵型——凯文杜兰特、勒布朗詹姆斯;NBA二阵型——鲁迪·盖伊、卡隆·巴特勒;角色球员型——肖恩·巴蒂尔和罗尼·布鲁尔;以及独孤球员——优秀到电脑无法进行分类,也无法与其他球员进行联系。例如德里克罗斯和德怀特霍华德。而根据这个分类分析,森林狼的球员分类明显不均衡,而上一年的达拉斯小牛明显更均衡。(这位讨论这套分类模型的时候,还是在校生。)篮球运动方面存在着大量的统计数据,而这些数据还由时刻、场上情况、队友指数、上场时间等等一系列复杂因素导致不同的结果。这就是典型的复杂数据——而且瞬发。群体运动项目中,这就足够典型的“大数据”了。但是这数据量仍旧不够PB级别。NBA几位著名的数据量化球队经理/经理人,包括中国球迷最熟悉的火箭队莫雷(这个身高将近2米的胖子从来没有参与过与篮球运动直接相关的工作,麻省理工的MBA…等等,又是麻省理工?),ESPN最著名的球评人约翰·霍林格(虎扑绰号火灵哥,著名的PER值Player Efficiency Rating(球员效率值)创始人),相比而言,刘翔的训练成果和什么“三大一从”、“一元训练理论”关系甚微,和孙海平的关系也没有想象中那么严苛。反倒是中期改变动作时和体育大学联合开发的数据分析软件(内部名称就叫什么什么fly,嗯没错,就是刘翔最爱的英文单词)关系更紧密一些。后一大类有关运动的大数据应用,叫做“运动预测”,则是纯粹性质和意义上的预测。例如微软和百度在世界杯结束后均宣布自己预测正确率超过80%,其实并非首创运动预测,这也不是行业内第一次做这类数学预测。最传统的数学预测方式,是类似538()动辄使用的泊松分布回归分析法。这类方法用于预测评议类选项时的正确性颇高(参见538预测从总统到奥斯卡的历次成果),但是在足球比赛的结果预测上往往不尽如人意。微软的预测分成好几部分在做,一会儿是微软研究院与Office团队共同开发了一款Excel工具,一会儿是微软的个人语音助手Cortana,百度则只有一个工作部门弄了这个预测:“百度大数据实验室负责人张潼教授进行了解答:…我们选择了以下5个方面的数据:球队实力、主场效应、近期状态、大赛能力以及博彩数据。对这五个维度的数据进行收集后,我们使用由大数据实验室的科学家们设计的机器学习模型对数据进行汇总”、“搜索过去5年内全世界987支球队的3.7万场比赛数据,并与国内著名彩票网站乐彩网、欧洲必发指数独家数据供应商Spdex等公司建立数据战略合作伙伴关系,将博彩市场数据融入到预测模型中”……实际上,对于这些预测方式,数据的采集才是他们的难点(重点数据在于球队实力的数据化、近期球员状态的数据衡量…),这些采集无论是主观性还是大量冗余信息的存在都难以进行有效的预测,而采用博彩数据进行核定才是重中之重。当然,我个人建议百度以后加上乌贼刘指数做为重要权重予以参考。这种方法也并非在这两年才有,创立于上个世纪的Tipp24()应该是最早把这个做出名的企业,他们专门针对欧洲博彩业进行下注和预测。必发指数和凯利指数的数据统计应用也是各类博彩网站必备的手段之一。其实方法上更接近传统的统计分析,没必要非挂上大数据的名字。我们都知道竞技比赛开始之前是会有博彩公司为此开出赔率的,通过各博彩公司的赔率进行统合进行的预测,又可以称为“根据他人预测的预测”。实际上数据筛选本身就是由人工生成的数据产生的二次生成。实际上,前面所说的分析方法也应用在了预测方面,毕竟模拟现实本身也是计算机技术的一个研究方向。比较著名的包括科隆体育大学(German
Sport University Cologne)的世界杯预测,科隆体大很早就根据自己在足球运动方面的观察分析系统进行过各种有关比赛的预测。其中最著名的就是06年世界杯的德阿点球大战“纸条预测”,准确的靠高概率预测中了阿根廷守门员的扑救方向。但是对于整个比赛结果的预测,由于涉及大量现实模拟内容,而博彩的权重比例相对很低,预测结果并不尽如人意。预测结果大概和我用《冠军足球经理》凑两个队模拟十场的结果成功率差不多高。当然,科隆体育大学和德国足协合作的项目重点本身,也不在于赛事预测,2004年欧洲杯失利之后,德国足协就开始着手国家队训练方式的调整,有一个叫做Urs
Siegenthaler(译作乌尔斯·济根塔勒,瑞士人)成为了之后十年的德国队首席分析师。09年,Siegenthaler和科隆体育大学的Buschmann教授组成过31个小组,进行4类观察分析(当时使用的还是老版的Posicap)。这些都成为了球队训练的一部分。但是当把这些训练数据拿来做还原模拟的时候,预测结果却不尽如人意。简单说——仿真模拟之路还很长。因为分析预测与单纯的“预测”不同的是,标记和统计体系在观察分析下成为一项项更为细化的指标,指标量化变为质化结论的过程,本身就可以为球队的改善作出有效的帮助——当然,需要和教练员共同进行人工处理才可以实现最后的步骤。“预测”的现实意义,对于彩民来说更大一些。毕竟西方的成熟博彩业已经有了200多年的历史,大量的预测方法应用在各家博彩公司之中,例如elo预测、进球率比较法之类,而将博彩预测法的结果进行统计学归类,对于比赛预测不失为一种有效工具。抛开体育,大量的生活中的数据面临所谓的“大数据处理”,典型的案例即天气预测。各类气象指征瞬时发生,以典型的“高频复杂”的形式出现,给各类分析人员提供了大量的可参考数据,从这其中借用建模工具分析提取有效指标,是一种典型的“大数据”应用。同时还有金融行业交易时,各类金融期货数据,每秒钟因一个品种产生的买入卖出数据、量、需求量、成交价格…一秒钟即有12个数据,每小时42200个数据,加上技术指标和成千上万的品种,也是一种典型的高频数据。但是复杂程度?除非需要进行分析预测,否则单纯的指数并不复杂。 老师从事的用户研究和趋势研究后半部分,其实也是典型的长期讨论中的大数据研究。成熟的例子自然是亚马逊的用户行为分析,但是普遍得出的结论过于简单粗暴,分析复杂性还远远不够。常有军粉说在军事科学方面大数据如何如何,但是现在大到战场模拟仿真(天气、地形、敌我双方态势、后援预测…),小到武器的击发测试(发射速度、风速、射表指征、每一个测速点的形态、温度…),这些都符合瞬发数据。但是至于这些数据如何复杂,还有待商榷。没有具体到个体的态势分析,我个人认为还称不上大数据。这些其实是同质的数据,但是无论是否同质,最终都是0和1的表现形式。人为的认定数据有不同的维度,才是定义数据“复杂”的根本。需要有不同维度的处理,才会形成“大数据”的概念。要能够高效处理数据,将数据的冗余部分去处,将高效率低成本的数据存储起来,形成新的数据表达方法,这种数据融合、跨学科的数据挖掘,才是谈及现在“大数据”的根本意义。在数据界(data nature)里面形成一套完整的生态。数据库的发展过程是一个比较典型的例子,也为数据挖掘奠定了基础,机器学习是下一步工作,形成研究而非研究目标,才可以纵谈大数据。
答前预警:下方高能!这可能是本人在知乎上最长的一个答案么么哒。最近,有一则新闻,说的是苹果与IBM联手,“把IBM的大数据和分析能力带给iPhone和iPad平板电脑”,从而“创造一种新类别的商务应用”。“大数据”这个词又一次占据了各大媒体的版面和群众的视野。最早提出“大数据”概念的是麦肯锡,它当时这样说:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”2012年5月,IBM发布智慧分析洞察“3A5步”动态路线图,基于该路线图,IBM提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(Information
Integration and Governance)。其实,无论是麦肯锡,还是IBM,他们提出的这个概念,实际上很早就应用在了零售商业领域和科技领域。比如,大家熟知的沃尔玛的“尿布与啤酒”的故事、Google在2008年推出的Google
Flu Trends进行流感预测(虽然这货失败了)、还有那个有趣的关于Target知道女孩怀孕而父亲开始勃然大怒最后道歉的段子(Target基于25种典型消费商品构建的“怀孕预测指数”帮助Target在2002年到2010年间,实现销售额从440亿美元增长到了670亿美元的跨越)。传统的零售业态中,有一个在国外很流行的东西,也是我很熟悉的领域,即“会员忠诚度管理”,我个人的观点是,这是贯彻“大数据”理念最彻底的领域。“会员忠诚度管理”是一个非常复杂的系统,谈起这玩意儿,往往会涉及3大业务板块:会员系统、积分体系、客户服务。这三块业务构成了“会员忠诚管理”的基础。那么,什么样的企业使用这套系统呢?很多,比如,航空公司的常旅客计划、银行信用卡中心的客户服务与积分计划、海外零售行业的异业合作联盟,等等。我们不展开说具体的业务,我们只说这个系统做什么,如何运转。会员系统担负的职责是:获取顾客的基本信息对顾客按照消费指标进行分级,管理顾客的会员级别发放与管理会员卡积分体系承担的职责是:根据用户的消费情况,赠送积分通过积分绑定可兑换权益,实现品牌、体系内的消费闭环作为可等价物开展异业合作与资源互换积分与会员卡绑定客户服务承担的职责是:储存与管理会员资料解决会员与非会员顾客遇到的问题提高会员与非会员顾客对品牌的满意度维系会员顾客、转化非会员顾客为会员对会员顾客进行权益、活动等方面事项的告知我们即便是用如此简单的描述(虽然有点啰嗦)都可以发现,这3个系统的联动是围绕一个目标来进行的:提升品牌已拥有顾客的忠诚度,实现顾客在品牌内的持续消费与黏着,并在此基础上减少获客的成本。容易理解么?其实很容易理解。已有的顾客维系好了,满意度上去了,顾客会愿意驻留在品牌内,持续的对品牌进行消费,同时,顾客会愿意自发的进行口碑传播,从而带来新的顾客。这套系统运行的时间越长久、积分币值体系越稳定、纳入的异业合作越多、客户服务做的越好、会员分级管理越精细,对企业的盈利、顾客的留存、流失客户的减少就越有帮助。我们可以设想一下,这套系统是如何实现“大数据”应用的:百货商店A,通过与公司B合作,通过利用该商店会员卡了解交易量变化和用户忠诚度的变化,加上通过一些媒体和调研建立消费者行为数据,得出能够促进消费者消费活跃与忠诚度上升的商品与活动,从而进行针对性营销,对不同偏好的顾客发放不同的营销手册,从而促进了销量的增长。这家百货公司A是美国的梅西百货(2013年有至少15%的销售来自电子商务,其在北美门店的布局、品牌组成、货品组成都是基于用户的消费数据计算而完成)。这家合作公司B是德恒(曾帮助Tesco扭亏为盈)。这个应用场景是梅西百货推出的“我的梅西百货”计划。无独有偶, 某通信运营商C联合了某互联网公司D,利用签约手机的地理位置信息,为顾客提供类似黄页的服务,推送附近的餐饮信息、末班车信息及其他营销活动。同时,由于当地NFC技术的发达,运营商也了解用户的消费行为和偏好,从而将这些数据进行整合和挖掘,找到新的市场。这家运营商C是日本Docomo,互联网公司D是Twitter。他们的合作似乎并不成功,但却是利用庞杂数据进行整理与归纳并找出新的盈利点的有趣尝试。题目里说到的体育,于是请让我要吐槽一下百度预测在这次世界杯预测中的作法(谁叫我没有按照它预测的买彩票啊啊啊~!):这是决赛的预测雷达图,我们看到了什么?原来百度的世界杯预测基于5个维度:球队实力博彩指数大赛能力主场效应近期状态这样的维度,首先要看用于什么用途,对于我看到的百度预测的用途来说,对于彩民,或许是有用的,有这些维度已经够了,但是如果我们对比一下题中描述的“Match In-sights”,那百度预测这样的数据维度能否帮助球队的训练、战术的针对性安排与实力提高呢?明显是差不少。首先,缺少环境因素指标:天气-球员对天气的适应性;场地-球员对场地的适应性、场地对战术安排的局限性或促进性等等然后,缺少球员习惯指标:位置有利足习惯(突破?传球倾向?传球习惯?)等等;缺少教练的战术习惯指标:阵型倾向进攻与防守倾向压迫倾向防守强度换位习惯等等……当然,我们可以看到并且感到惊讶甚至惊艳的是,这是一个非常非常有趣的尝试,并且做的很不赖,我们可以期待的是,未来这样的大数据系统会产生更大的作用,带来更大的价值。同时,我们也应当意识到,在互联网领域,搜索引擎是天生具有大数据应用研究与实践潜质的产品类型,所以你看,Google尝试了流感预测,百度也开始玩预测(不仅仅是世界杯预测,还有城市、景点、高考、疾病预测,包括看它未来好像还打算做房地产、票房、就业、金融方面的预测,有兴趣的可以上了解,挺有趣)。最后,有一些话不吐不快。“大数据”这个概念,太多的人有误解。并不是说你掌握了越多的数据,越细的数据,就有机会通过“大数据”来获得一个金矿。这里的关键点在于你如何分类、利用、整合、分析这些维度的数据,并非所有维度的数据都有用。举一个很简单的例子,这个例子其实很贴近我们的日常生活,甚至有可能会给一些想创业的朋友一些灵感。一个餐厅,对半径5公里的写字楼提供外卖服务。请问,这个餐厅有大数据么?如果有,可以利用大数据做什么?这个问题,如果我来回答,我会说,有大数据,这个数据是什么呢?是一个固定阶段里,写字楼员工对外卖的消费习惯,这个消费习惯对接了哪些指标呢,我随便YY一下哈:公司业绩发展情况。半年里,一些公司的外卖少了,一些多了,如果1年后还是这样的趋势,说明有些公司的业绩在下滑。能做什么呢?你猜。餐厅菜品和其他服务的可提供程度。订餐者的口味在各个季节有没有变化,一定有,那么夏季是不是可以增加清凉饮品的订购或者赠送,冬季是不是可以增加热饮甚至汤类的供应?那是不是可以去搞一些赞助或者夹一些广告?是不是可以研发新的菜品?写字楼白领的消费能力。白领订餐的客单价是否越来越高,每年提价之后,白领是倾向便宜的套餐,还是无所谓保持自己的口味?这些指标做什么用,我想是有很多想象空间的。好了,假设这家餐厅生意兴隆,开了很多分店,覆盖了多个商圈,又会怎样呢?留给大家去思考吧。我觉得这是一个很有意思的话题。真长,考虑一下放到俺的专栏去,嗯嗯。
-前记题目问的是大数据的应用,但是关于大数据,我有一些话想说,因此这篇文章基本上写成了我最认真写的回答之一。大数据和O2O,似乎是现在所有大公司必不能缺少的业务,也是许多创业公司若能则尽可能傍上的大腿级概念。但我一直觉得,对于一般的创业者和中小型公司而言,O2O几乎没有搞头,主要问题出在线下,即不了解线下,又吃不了苦去深耕去动苦力地推。今天互联网思维被热炒,说的有“开放”、“分享”、“自由”、“创新”等一堆关键词,但实际上真正勤恳做事的人,没有人出来说思维,只会说事。我甚至觉得,在虎嗅知乎上面,我一看到互联网思维,我就觉得它脸上还写着“投机取巧”、“自大而不肯落下凡尘去吃苦”。不是那些辞职卖猪肉成功的人有互联网思维所以成功,而是因为即肯想,又肯干。今天大多做O2O,特别是做O2O创业的人,很肯想,但不太肯干、吃线下的、地推的苦。但大数据不同,它纯线上,且机会在于,今天可以获取到的数据已经和多年前不一样了。不只是移动互联网,不只是手机、LBS、麦、螺旋仪、空气检测器,还有和题目这个例子里面的相关的球员跑动数据,各个的士每时每刻在的位置,公交车多久到站及其平均在每段跑多久,交通拥堵情况,人的心跳体温血压体重酒精含量等等。如何理解大数据?我想说的如何理解大数据,不是在各种论文、报告里面的大数据的定义,我只是谈谈我自己的感受。作为年度热词,大数据被许多将懂不懂的人时常听到、引述,一般被理解为“大量的数据”,但我不这么理解,或者我认为,这么理解,意义不大。因为“大量的数据”是一直有的,从IT技术开始,数据就一直存在,谷歌百度Bing这类搜索引擎无疑获得了最多的数据,当然今天我们看到在人工智能、机器学习方面,他们的积累和研究估计也是最多。但是,似乎此前听到的大数据应用里面,没这几家什么事,至少我没听到什么有趣的应用。那么大数据是什么?我理解大数据是“新的数据”,和“新旧数据结合”,为什么今天的时代,大数据如此火热并且我也觉得它真的值得火,因为今天是移动互联网的时代、快要进入可穿戴设备的时代,所以新的数据指标、数据类型层出不穷,大数据此时真的是嫩得可以掐出水般诱人。我举个我听过且影响深刻的例子。第一个例子发生在芬兰,是我一个在芬兰留学的性格像产品狗的码畜朋友跟我说的。他在芬兰时很不安份,经常在上学同时参加各种创业沙龙、聚会、孵化器公开日等。他听到了许多极其有趣,在国内真是闻所未闻的例子(当然也可能是因为文化的原因所以国内听不到),其中我印象最深刻的一个,是他在诺基亚快死时弄的一堆孵化器公司里面的一个,就是关于大数据。这个例子的数据一点也不大,简简单单。它是一个专为钓鱼爱好者而做的钓鱼应用,它提供的能力是,你选择你今天想要钓什么鱼,它告诉你,在你附近有几个点,分别在哪里,有多大概率钓到几条这个鱼。Exciting!典型的大数据应用对吧,它的做法很简单,每个用户去某个地方钓鱼时,提供钓鱼日志功能,让你今天记录你钓了几条什么鱼。这对于用户来说非常自然,且有意义。而它会记录手机LBS位置、当地当时天气、温度、湿度以及其他可能的和鱼类出没有关的指标,在云端记录,加以简单分析,就可知道,某个区域,在什么条件下会出产什么鱼,再逆推,便知道你要某种鱼时,可以去哪里。这个公司在当时(2年前)便已盈利,用户好像是已有几十万且在稳步上涨,听着好像很少(我当时第一感觉也鄙视说少),但你妹啊芬兰总人口就几百万,且人家消费力不是镇内屌丝可比好吧。再比如,脑补一个场景,估计不久的未来可以实现。根据国人带可穿戴设备时,持续获取的步数、心跳、血压、体重、体检信息(即用户们得病的情况),以及一些医学数据库内的研究,提示你说,你这一年如果还像去年一样不锻炼一直宅着,有80%的概率在一年内罹患脂肪肝、肥胖病、颈椎骨质增生....我去想到这,我简直想在这个夜深人静的时候出去跑步了...大数据的国内现状国外的情况是,按照另一个米国留学男提到的,我查了一些资料。美国北卡来罗纳州立大学分校史德利·阿霍尔特曾经提到过,需要新的工具来使数据消费者进行大规模应用。“从2010年开始,每两天产生的数据就相当于历史上到2003年产生的数据总和。需要数据科学对这些数据进行分析、挖掘,利用。互联网使得数据的移动、共享和发现更容易,但研究和分析却不是那么容易的事情。”阿霍尔特以名为美国快捷药方的公司作为例子,这个公司宣称已有10亿个药方数据用于分析,他们通过预测模型找到了400个甚至更多的影响因素,来发现因病人不遵循用药规定带来的风险,让病人的邮购行为和处方高度一致——这一项研究每年可以减少损失高达3170亿美元。阿霍尔特强调,必须有专门的数据科学家进行大数据的研究以及应用工作,“他们必须能获取数据集,对它们进行数学建模,以及懂得建立模型的所需要的数学理论。他们必须能发现并阐明数据揭示的问题,即从数据中发现合适的问题。”在国内,大数据有不少企业和实验室也在研究,归根到底,目前走的还是实验方向,以及预测和分析为主体的探索过程。不过现在也有一些有成果的例子。比如百度大数据的世界杯预测,着实震撼到我,除了预测准确度之外,很高(见下图),还是足球这种我觉得不确定性大过天的事情。我只能说,这次百度让我竟无言以对,真是枉为百度一生黑。我不太清楚百度做世界杯预测花了多少时间和团队精力和资源,或许几十人,3个月?但如果说就是这几十人在3个月内做到这一切,就好像在说吃5个包子可以饱所以就直接吃第5个包子一样。百度在人工智能、机器学习方面的积累和努力,我并不清楚具体是从什么时候开始,但从2个事情来看,估计非常之早。一是Andrew Ng(Google Brain之父,世界级技术大牛,现在做百度大脑项目)的加盟,二是百度的基因。百度的基因是技术。这点和阿里的基因是运营,腾讯的基因是产品一样。基因指的就是解决问题的思路和方法。比如阿里,无论啥事儿,就是想着怎么推,典型的是来往的员工配额计划;再如腾讯,无论啥事儿,就是想着产品设计怎么搞体验要怎么好。所以阿里做重产品的活儿很难成,腾讯做运营的活儿很难成。而百度比较有意思,相对介于两者之间,做产品做运营都不一定不好,它的思路是基于技术。形象化点打个比方,就大数据这个事:1. 百度会有一个科学怪人在想,哎呀哎呀,听某学术杂志上的最新论文(如XX年1月)说,实现一个钉子那么小的物件挂在耳朵上,就可以全天候获取这个那个数据,简直碉堡了!快研究研究。7月,研究出来了,技术团队极其兴奋写了个报告给老板,老板就安排产品团队开始想,这个技术可以怎么用啊,可以用来搞啥啊?想清楚后,做出产品来,10月。2. 腾讯会有一个产品狗蛋在想,现在可穿戴设备这么多了,我妈妈昨晚还跟我说现在她带了百度的那个东西在身上,怎么也没就之前告诉她她会生病啊,不是记录了我的步数、心跳、血压么。于是产品狗蛋写了个PPT给老板说他初步推测,百度的技术咱们研究研究挖挖人,估计可以实现,11月。研究技术,次年2月,出产品,次年2月。3. 阿里会有一个运营土豪在想,百度腾讯做的那个东西,我卖差不多的,用聚划算卖,捆绑销售。嗯还送淘金币好了。其实没什么好坏,只是各有优劣,比如阿里的虽然卖得快,但容易没啥自己的产品和想法和思路,长期搞不定,大数据上,阿里的类别也的确最难搞,时尚趋势或者未来流行啥,实在是偶然性太大太大了。百度的虽然技术积累好卖得快,但容易因为是借着技术想需求,容易想到脑补或者超前的需求,掉大坑里去。而腾讯的虽然产品需求踏实体验好,但时间滞后,而且跟(chao)随(xi)策略被人诟病。从大数据目前更多是数据积累阶段,还未出现百花齐放,许多有趣而酷的大数据应用出现的情况来看,百度此时的数据和技术积累估计是最多的。从这次世界杯预测的情况来看,也的确如此。但是也确实有可能产品需求上落坑,比如根据本次世界杯预测的能力,花大精力做了一款产品结果没人需要...此时的情况,似乎很像例子里说的XX年1-7月。未来会如何?-
只说说互联网领域的大数据,目前在中国互联网,大家泛指的大数据应用上,商业化比较成功的就是:智能推荐智能推荐的目前涵盖的范围已经比较广泛了,主要包括电商推荐,广告推荐,视频推荐,文学推荐还有很多很多。案例多了,基本所有大的电商网站上的“猜你喜欢”,腾讯qq空间的广点通广告推荐,视频网站上面的推荐内容等。别的不了解,但从腾讯公司财报中可以看出,广点通广告推荐的效果是非常好的。广告收入在之前占腾讯总收入7%-8%的样子,上线后广告收入占12%。并且是在游戏等领域收入增长近50%的背景下,可想而知,广点通对广告收入的拉动。这些推荐原理都差不多,根据大量用户的网上行为进行聚类和画像,利用逻辑回归等等机器学习算法计算兴趣,然后得到用户的兴趣列表,选择素材进行推荐。但是这整个流程,我只能说理念是使用的所谓的大数据分析的理念,使用的数据量级撑死也就是PB级,这算不算大数据我都懒得争。题主可以弄本《大数据时代》看看,里面有很多案例。作为从业者,我只能说大数据的路还很长很长,现在冰山一角都没到,却变成人人嘴上都挂着,不谈大数据都不好意思出门。最后,盗图一笑
关于这个问题,我个人的感觉是:现在说“如何充分利用大数据、借助大数据掘金”有点早。就好比道长的答案所说(
道长你不要拿学术口来打压我这种“民科”我被群嘲过好多次了谢谢),大数据目前的问题在于数据处理和挖掘,而且是“对不同类别的数据进行汇总进行处理,包括统计分析、建模、模拟抽样、乃至预测”。 这说明大数据的方向并不是单纯的领域内数据,也不是单向性流动的,而是多领域内的数据应用,是复杂的抽取、汇总、处理的过程。如果需要,数据搜集范围甚至可以扩散到大洲和全球范围内。既然问题的补充说明当中说到了足球,我也从足球说起吧。貌似除了足球稍微懂得多一点之外别的我还真是二货民科了……关于之前新闻报道的“高盛经济学家通过建立数据模型,分析自1960年以来超过14 000场国际比赛,最终得出了他们对本届世界杯的预测结果——五冠王巴西在家门口捧得第6座金杯的可能性高达48.5%,而名列第2的则是桑巴军团的宿敌阿根廷”;我想说的是,这类宏观的数据,时间跨度太大了,在大数据概念还没有出来之前,就有分析指出:1960年到1986年的世界杯/欧洲杯的正赛和大洲预选赛,以及各场国际友谊赛结果,无法为1986年之后的国际大赛分析和预测提供足够有说服力的依据。一个流行的观点:欧洲顶级联赛的变革期从1984年欧洲杯之后的意甲联赛坐大开始。1985年的海瑟尔惨案使得现代足球的重心回到欧洲大陆,意甲联赛的崛起和欧洲三大杯的成熟让职业足球的商业化进程加快,职业联赛的权重系数,职业球员当中外援的数量和表现,以及联赛的赛场数据得到了更多的重视。从国际足球历史和统计联合会(IFFHS,全称International Federation of Football History and Statistics)的成立时间可以看出这个观点的合理性。请注意,这个合理性只能从一个方面进行说明,无法提供必要的论据。IFFHS是一个由FIFA认可的、进行足球数据与历史统计的机构,成立于日,由Alfredo P?ge在德国莱比锡创建,目前总部设在阿布扎比。该组织自1991年起根据洲际俱乐部赛事的俱乐部表现制作世界俱乐部排名,对于联赛水平的评判标准纷繁复杂,主要项目包括联赛俱乐部在洲际比赛中的成绩,联赛中外援的数量,该联赛在该国以外的收视率,以及激烈程度,联赛密度等诸多项目。另外,当时的国内足球刊物曾经提到,1986年和1990年世界杯,开始有了射门次数、进球、红黄牌、角球、定位球之外的统计数据:犯规次数。其最大的统计对象当属球王马拉多纳。当然,这只是数据统计健全的开始。在20世纪90年代后期,足球数据网站和专业数据公司出现,开始人工操作结合视频分析技术,在比赛中实时提供数据。直到后来,有了专业的体育数据企业出现,例如著名的体育数据公司OPTA,在每场足球赛中记录的数据多达1500项,但目前为止,尚不能说明这些数据的累积在比赛分析和预测上一定能起到立竿见影的效果。例如,2004年阿森纳主帅温格通过数据得知,当时还默默无闻的弗拉米尼一场比赛能跑14 000米,但是温格“依然不确定他是否跑对了方向”,直到现场看了他的比赛才决定和他签约。当然,只提到球员的比赛数据是不够的,在比赛的背后,还有医学健康领域的数据,用于球员伤情监控/预防。这才是我想说的重点。在国家队/俱乐部确定使用一名球员上场比赛之前,首先会有这名球员的身体机能数据。这份数据基本上通过国家队/俱乐部医疗部门的体检结果累积,或者通过与国家队/俱乐部合作的医院的检测结果累积。其中关于身体机能的检测数据项目多达50项以上。在俱乐部层面上,培养一名球员,会根据他的健康状况确定合理的饮食计划,并结合系统训练,以及比赛的监测结果不断调整。这样的计划会一直从俱乐部延续到国家队。在这方面,设备和理念最先进的是意大利AC米兰俱乐部的米兰实验室——2002年建立,投入500万欧元以上、花费18个月时间建成,目的之一就是为球员专门组建数据库,用于保证运动员竞技状态的受伤风险预估。米兰实验室可以从球员的肌肉类型和生活习惯等方面进行前期数据收集,再分析数据以便对球员状态进行预测,甚至每个球员的伤病情况诊断、恢复期、康复内容,都要依靠对这些数据的分析和整理。数据搜集和分析大概包括:球员肌肉类型、身体结构和机能、历次体检状况等属于医学类数据,每场比赛中球员的各项数据(冲刺次数、跑动距离等)属于比赛数据,场地温度、湿度等属于天气数据、各项训练强度监测属于训练数据。等等。在每场主场比赛时,球场四周有8台摄像机收集球员比赛中的数据。每两周还会安排一次球员的体检,包括身体结构和机能,生物化学、生物物理、情感和心理等方面,以上数据经过汇总,组成庞大的球员数据库。另外,米兰实验室的心理学家德米凯利斯教授(这个名字好诡异)在实验室内部的“MindRoom”帮助球员战胜心理压力,德米凯利斯会根据球队的赛程来制定合理的心理教学大纲,在联赛、冠军杯和意大利杯中找到一个正确的平衡点,让他们成为训练的主角,而非被动地去接受训练。在互联网的高速发展下,球员的治疗和健康数据成为伤病治疗过程当中极为有价值的参考依据,以便球员在客场或国家队作赛过程中出现伤病之后进行综合分析。因此需要打通的是医疗数据的封闭性因素。一个很现实的问题,大多数外出比赛受伤的运动员会在当地建立病历、进行一系列检查;之前建立的数据量庞大的健康档案(其中包括大量的非结构化数据和半结构化数据,例如核磁共振、B超、心电图、脑电图、病理分析等)存储在运动员所在地的医疗机构当中,很难为临床数据对比、临床决策支持等给予应有的帮助。这些本地数据的存储量非常庞大,对于不熟悉受伤运动员具体情况的外地医生,在诊断活动中如果可以异地调阅这些数据,就能根据过往病史结合当今伤情,做出更准确的诊断,并给出治疗方案。通俗一点说,这是目前医疗信息化、国家/全球范围内医疗数据通用化的未来发展方向,也是能够惠及运动员之外的普通民众的一个大数据项目。如果这样的大数据存储、检索、实时分析功能真的能够普及,可以在临床诊断、疾病控制等方面得到充分应用,帮助医生实施更加有效、准确的临床诊断和用药决策。甚至能够协助政府公共卫生部门完成疾病预防和控制。我现在所持的疑问在于,医疗信息化、国家/全球范围内医疗数据通用化在医学术语的沟通上是否存在语言障碍,还有就是异地的诊断信息和治疗方案,本地的医师如何通过最无障碍的方式进行阅读。如果有这方面领域的达人,请私信指教一下,不胜感激。其他类似的例子:总部设在法国的数据公司SUP(Sport Universal Process)为多家欧洲俱乐部所聘用,进行数据分析。该公司的解决方案名叫AMISCO PRO,主要功能为:1.呈现球队球员二维跑动2.与比赛录像同步3.整合的图形工具:越位,模块,线条4.完整的个人和全队统计数据5.图表,表格,清单形式的数据6.测量身体活动和体质报告7.个性化规则8.可输出数据到第三方应用******************引用内容的分割线***************************在莫耶斯跳槽曼联之后,埃弗顿请来维甘竞技队的马丁内斯来当他们的新主教练。马丁内斯对数据分析的迷恋众所皆知,他在家里放了一台60吋的触屏电视,再结合能够记录分析球员表现的软件Prozone,每天反复观看球队的比赛录像,特别是输球的比赛,最多会看十几次,去挖掘其中的败因。在马丁内斯的指导下,埃弗顿会在训练中记录每个球员的每个动作:“我们用GPS和心率测量仪来监测每个球员的状态。从体能的角度来说,最显著的数据是冲刺数量、冲刺距离和每个球员投入的高强度运动次数。我们这样监测一整个赛季下来,就能知道一个球员目前状态是否疲劳,以及他需要多久的休息时间。”******************引用内容结束的分割线***************************提到医疗信息化、国家/全球范围内医疗数据通用化,不可避免地要说到百度的疾病预测项目。该项目目前就流感、肝炎、肺结核、性病这四种疾病,对全国每个省份以及大多数地级市和区县的活跃度、趋势图等情况,进行全面监控。我感兴趣的是,不知道百度疾病控制的大数据搜集,会不会源于搜索引擎对网络上患者描述自身病情的搜集。这些病情反馈当中,由于大部分患者并非实名描述,而且缺乏专业医学知识的支撑,加上太多的信息噪声,还不足以成为标准化数据,但只要病情描述无误,地点IP准确,应该是可以为病源地区、人群界定和病理推断提供依据。
现实生活中非常多,很多大家都已经提到过了。我也说一个,像视频网站,现在都有广告推送,但是这个推送并不是盲目的,而是通过大数据分析你观看的视频类型来推测你的性别,年龄,甚至消费能力,进而推送不同的广告。举个例子,看球类比赛的男性朋友多,韩剧,综艺节目的往往女性多,而关注新闻类节目的普遍年龄偏大等等。
大数据概念很大,但落地可以很细。现在普遍存在一种认知,认为大数据应用门槛很高,只有大公司能够负担。其实不然,由于开源项目的蓬勃发展,很多应用都能以很低的成本实现。在中小企业中,大数据的应用已经成为可能。讲三个亲身经历的故事。第一个故事:我太太曾在某互联网猎头公司任职。他们公司经常有大量的简历需要分类,根据性别、年龄、地区等信息。采取的方法是把简历分发给不同的猎头顾问,让他们手动分类,非常耗时间。有次我太太有几千份简历,需要在周末两天内完成,非常辛苦。我研究了下简历的格式,用python实现了这个功能,前后不超过两个小时。她的同事们都纷纷惊呼雪中送炭。后来他们公司的技术团队被老总给骂了一通。作为互联网公司,他们是有不少程序员的,然而并没有人主动想利用开源工具去解决这个问题。第二个故事:我曾经义务帮忙一个团队做藏汉词典的电子化工作。文档都是扫描版本,需要转化为电脑能识别的格式。最笨的方法,就是对着文档打字,这样会非常耗时。我们当然想到用文字自动识别(OCR)来做。这种软件市面上其实有很多商业版本,汉语识别都还不错,但藏汉混合都不太好。辗转几次之后,发现了google的一个开源项目tesseract,于是利用这个开源项目实现了词典的自动识别工作,总共也就几天时间。虽然藏语的识别率不是很高,但是已经能用,再找人校对就好。现在词典的电子化工作已经完成,只等APP上线了。第三个故事 :做股票的量化投资分析,需要大量的数据。对小团队来讲,获取数据并不容易,好点的商业软件都比较昂贵。后来开源项目tushare出现了。这个项目利用新浪财经的接口,将股票数据的获取变得极其简单,大大方便了做股票量化投资的朋友。曾经不只一个朋友突然微信我,问这个项目是否是我做的,真是好用。我都忙不迭解释,是另外一个朋友做的,只是单纯挂了我的名字而已。现在这个项目很火,我也算是沾了光。上面的故事,都是中小团队利用开源工具实现效率的大幅提升,成本也很低。我本人在金融行业工作,对于使用开源工具建立量化投资体系较有心得。比如,自动获取数据、自动交易平台、爬取网络关键词,甚至是人工智能算法,都有成熟的开源项目可以使用。之前我一心想把类似的技术应用在股票期货的投资上面。但最近参加了长江商学院的一个讲座(人工智能和金融),结识了很多传统企业的老板,他们对类似的技术也非常感兴趣。我突然意识到,既然互联网公司都没能充分利用开源项目,那传统的企业中,肯定大量存在着可优化的地方,而且是低成本实现。我甚至猜想,很有可能仅仅利用Excel的自动化,就能解决不少问题。这个方向才是真正提升社会生产效率的。把类似技术应用在股票期货上,多少有些零和博弈的意思,其实是种浪费。如果有老板看到这篇文章,想应用类似技术解决公司实际问题的,可以加我微信hellomoon9。我们一起来研究,看有没有现成的技术,能够低成本地提升公司运营效率。-------------------------------------------------------------------------------------有人质疑说,我讲的太简单,不是大数据技术。我的答复如下(一本正经地耍赖):
谢邀,有一个大数据应用的例子就发生在我们周围,那就是我们再熟悉不过的滴滴。哪辆车来接乘客?选择哪个路线最便捷?这些都依赖于数据。现在,没有人不知道滴滴打车。从第一单到日成交 1000 万单,它只用了不到 21 个月的时间。短短的时间里,我们见证滴滴打车的迅猛发展,也见证它如何影响我们的生活,如今“出行”这个词,与滴滴已经紧密相连。这有赖于滴滴打车通过出行数据的深度挖掘,进行出行服务方面的创新,以及针对不同城市展开的城市化运营有密切的关系。爱范儿旗下的创业社区 MindStore,邀请滴滴打车的快车运营负责人孙枢,分享了“快车拼车”这一产品的诞生始末,以及在滴滴在不同城市运营的基本机制。(滴滴快车运营负责人孙枢)以下是分享全文:大城市已经非常拥挤了,在北京工作,尤其是五道口上下班的人都知道,下班时打车回家是非常痛苦的。然而,我们的城市化进程却越来越块。中国的一线城市车辆密度已经超过任何一个其它国家的城市,比如杭州、北京,远远高于东京和纽约。车辆密度高,导致路面上的车辆行驶速度缓慢。当我们每天上下班都要花那么长时间在路上,每个人的出行成本提升,整个社会的效率下降。 4 年前,滴滴打车上线时,我们希望解决一个简单的问题:当你需要打出租车的时候,你能够打到。这 4 年,我们通过一个业务线一个业务线、一个产品一个产品,逐渐地把滴滴打车打造成了一个多元化、多业务线的出行平台。从一开始的出租车、专车、顺风车,再到快车。之后又有代驾、试驾、企业出行等服务。这么多条业务线,我们想做的很简单:满足绝大多数人的出行需要。除了业务线增加,我们也可从数据看到滴滴打车迅速成长:使用人群 3 亿;2015 年全年订单总量 14.3 亿,是美国 2015 年所有出租车订单量的 2 倍;2016 年 3 月,滴滴打车整个平台的日订单量突破 1000 万,相当于美国全国每日移动出行的 5、6 倍。随着我们规模的迅速增长,每天积累大量数据,通过对这些数据的深度挖掘,我们有了一些比较有趣的发现。第一个,关于空驶率。当我们开始用移动互联网连接出租车的时候,一个我们不断去努力优化的指标就是空驶率。这个指标的背后,是我们在思考,怎么能够让在路上跑的司机师傅们提升产出,减少一趟行程结束和第二趟行程开始之间的时间,以及油费上的浪费。实际上,以我们现在的规模和掌握的数据,我们基本能够在早晚高峰做完一个订单结束,第二个订单就进来,这时候,司机的手机端立即就响了。但是即使能做到订单的紧密衔接,一般情况下,司机还是需要花 5 分钟的时间,从第一个乘客的下车地点开到第二个乘客的上车地点,所以算下来每个小时还会 10% 的空驶率。那么一个直接的问题就是有没有方法我们能够完全解决空驶率这个问题,让司机在这一个小时里面都有产出。第二个,关于车内空间的使用。做滴滴大巴后,我们开始非常关注上座率。也就是说一个大巴里面的30个或者40个座位,有多少个是实际有乘客的。上座率越高,大巴资源的利用率也就越高。轿车其实也是一样的,我们发现大多数在滴滴平台上的车型,除了司机之外,都能够差不多坐四个乘客。但是一般的行程只有一到两个乘客,早高峰、晚高峰,大家都是上班或者下班回家,一般都是一个人,本来可以坐四个人的这样一个车型,车内的资源只有用了40%。于是,我们开始更加深度去思考上座率这件事。第三个,关于滴滴平台上特定时间段的供需平衡。当一个滴滴用户打开滴滴,他是否能够叫到一辆车,应该是我们这个平台需要去满足的一个最基本的需求,我们叫应答率。应答率也是我们每天,我们的运营、技术、产品非常关注的这样一个指标。基本上,在不断地增加我们平台上的车辆和司机,同时通过不同的策略和运营方法来鼓励司机在对的时间上路接单,也在不断地优化我们的派单和匹配算法。但是发现在几乎所有城市里,出行需求实在是太庞大了,早晚高峰很难满足得了。一旦碰到差的天气,,比如下雪,情况就更糟糕了。所以,我们会思考,除了不断地增加车辆之外,我们有没有其他方法能够保证我们的用户体验,保障每个用户在需要的时候是能够打到车。第四个,同类出行需求的满足。我们发现,当一个城市的规模变大之后,会有很多类似的行程在类似的时间发生,特别是早晚高峰。举个例子,每天早上 7 点到 9 点之间在北京有上千上万个用户从北京北边一个庞大的居住区“回龙观”往“上地”或者是“五道口”方向。他们很大一部分的行程是重叠的,我们能不能把这些行程合并起来?所以怎么减少空驶,怎么利用车内的空间,怎么能在早晚高峰和天气恶劣的时候满足需求,怎么连接这些重叠的行程,这些观察和思考最终成果汇集在新的共享出行的方式上——拼车。那什么是拼车?拼车是您和相似出行路线的人共同坐一辆车。我们先看看非拼车是什么。当我们自己独立出行的时候,一个司机从第一个乘客的上车地点,接上乘客 A,根据最佳路线开到乘客 A 的目的地。乘客 A 下车,司机结束订单。司机再空驶去乘客 B 的上车地点,把乘客 B 放下,再空驶去接乘客 C,这样一直下去。那拼车有什么不一样呢?一个司机先接上乘客 A,但是在途中有可能乘客 A 才上车不久,有可能是走了一半了,司机又接上一单,那他顺路会去接上乘客 B,那之后司机再按照两个人的目的地顺序,看谁最近,把两个乘客送到他们相对应的目的地。所以总体来讲,在拼车的情况下,一辆车一个司机可以用稍多余一个行程的时间和距离,来服务之前需要两倍的时间来完成的两个行程。也就是说更短的时间、更短的路程来服务同样的用户,效率更高了。对于一个用户来讲,选择拼车,也有可能会有三种不同的体验。第一,有可能是正在附近没有几米,另外一个乘客也在叫车,同时去的地方也比较顺路,那你们俩在出发点就拼上了,这种发生的可能性还比较小的。第二种是我在叫车的时候并没有拼上,但是在行程上,滴滴的后台还在不断地计算,在收集顺路的订单,如果发现正好有一个人离你的行程不远,也在发单去比较顺路的一个目的地,它就会把这个单子发给这个司机。匹配上了,你就会在路途中接上第二个用户,一起去你们类似顺路的目的地。第三种等于是第二种的反过来,我叫车了,正好另外一个拼友他在行程中离我很近,同时我们俩也是去类似的地方,所以我的车在来接我的时候,这个拼友已经在车上了。产品听起来比较简单,但往往很多时候,简单的产品背后需要非常大的工作量。拼车这个产品是依赖于目前滴滴出行的出行数据,每天我们采集的出行数据超过 50 个 TB 的,同时每天路径规划也超过了 50 亿次。基于上面的数据量,我们可以进行最大限度的数据挖掘,不断地通过大数据和深度学习驱动的人工神经元的这样一个智能网络,来实现非常精准的预测能力、智能的调配能力和动态的定价能力。那么这样一个大数据驱动的共享出行方式能带来什么?有什么意义?首先,拼车能够提高叫车的成功率。以前我们一个人叫车,必须要有一辆车来匹配上,现在一辆车可以当两辆用。拼车能够在不增加道路一辆车的情况下,大幅度地提升叫车的成功率,提升整体的用户体验。第二点是可以提升司机的时薪。举例,原来 30 分钟 10 公里,一个车主一个司机只能服务一个用户,现在他稍微多花一点时间,有可能 35 分钟、40 分钟就可以服务两批不同的用户,效率更高,司机每小时的利用率更高,空驶率甚至可以降到 0,司机的收入自然也就变得更高。而司机的效率的提升,整个平台效率的提升,可以进一步地降低出行者的出行成本。原本一个人要付这个行程的费用,现在跟一起拼车的人共享了那一部分行程,就可以一起负担了,出行成本可以至少降低 30%。那么叫车成功率的提升、司机时薪的提升,以及用户出行成本的降低,实际上组成了一个良性循环。当我司机的时薪提升的时候,就会有更多的车主愿意来加入这样一个平台。那么司机更多,整体的叫车体验就会变得更好,更多人也会来使用这样一个出行产品。那么同时,我的出行成本还变得更低,整个的规模在增加,所以形成这样一个良性循环的圈。除了降低空驶率的数据等方面,还能降低拥堵。这个很简单,一个人坐一辆车,变成了两个人坐一辆车。在我们上了拼座的城市,可以直接三个人或者四个人坐一辆车,直接减少道路上的车辆。我们现在的绝大多数城市已经不能够支持我们这么自私,每个人光是图自己方便,一个人坐一辆车把整个的城市道路全部拥堵住。拼车不能彻底解决拥堵的问题,但是我们觉得可以减少拥堵的一部分。最后,拼车其实还创造了一个社交的场景,应该有可能还有一些治愈功能。如果我们想我们每天每个人平均估计花一个小时、一个半小时,甚至更多在路上,那我们堵在路上的时候,一个人坐在车上的时候。拼车如果拼成功了,你会有一个拼友一起跟你坐在车上,这个时候有可能可以创造一些交流的空间,让整个行程更美好、更愉快。背后推动拼车这个产品的一个非常关键的因素是拼车行程的重叠率。也就是说当两个不同的行程拼成功了,有多少百分比的路程是两个人共享的。在我们试运营的几个城市里面,才上线的时候,重叠率已经高达了差不多 70%。最近通过一些算法的优化等等,已经高达了 75%,那么重叠率越高,司机的效率也就越高,拼车整体的收益也就越大。通过不断地完善我们的算法,做更多的数据挖掘,这个重叠率也是在不断地提升。一个完美的拼车行程是什么?我举个例子,应该就是说一辆车上面有四个座位,这个时候正好有四批不同的用户,互相都不认识,他从同一个起点出发,他们要去一个目的地,那这个时候四个人正好拼上了,所以四个人 100% 地共享一辆车、一个行程。在我们在一批城市上线拼车之后,各个城市之间的反映有非常大的不同。青岛、南京、杭州愿拼率是最高的,也就是说 100 个快车订单里面,到底有多少人选择了拼车。南京是高达 60% 以上。而我们怎么能够把拼车做得更好,以及滴滴这样一个出行平台,未来一个发展方向是什么?其实主要还是通过我们的大数据和我们的技术来驱动。我举几个例子,最近一段时间,我们在拼车这个产品上积累的数据越来越多,我们也是通过这样一个沉淀和技术上的一个突飞猛进,解决了一些拼车这个产品的最基本的问题。举第一个例子,在拼车这个产品才上线的时候,一个对于乘客不太好的体验是,乘客先在车上了,我在路途中要去接另外一个乘客。接上另外一个乘客,发现我反而要掉头,这个时候对整个的乘客体验是非常不好的。明明上车之后,我想往北走,但是这个时候却匹配了一个去南边接驾的拼车订单,所以对乘客的体验伤害挺大的,尽管有可能这些拼车路线是非常的顺路。最近一段时间,我们通过比较详细的地图技术服务,获到了一些特征,基本解决了拼程掉头接驾的问题。第二点,拼车需要优化的问题是,尽管能拼成功的订单是非常多的,但是拼成功之后,对于两边乘客的体验是什么样,特别是第一位乘客,我们能不能够减少他所损耗的乘客时间。随着我们业务的增长,可以拼的订单数量越来越多,我们通过定位问题的特征,利用机器学习来看能不能够迅速地匹配。首先第一,能不能匹配上一个可以匹配的订单。第二是能不能尽可能地减少乘客,特别是第一个乘客的时间损耗,能够尽快把乘客送到他的目的地。所以预测,特别是前瞻性的精准预测和智能调度对我们整个的产品形态是非常关键的。一个完美的行程,一个完美的拼车行程也好,或者一个完美的普通行程也好,实际上需要非常非常多的对于数据的挖掘,我们来看我们能不能预测现在的路况,我们能不能选择最适合拼成功的两个,或者三个,甚至四个不同的行程,在提升效率的同时,又能够保证用户的体验。现在滴滴已经在 400 多个城市开成,我们也是希望能够把我们这样一个技术驱动、体验驱动的分享经济模式,来改变每一个城市的出行。拼车是其中一个我们认为可以让城市出行变得更美好的这样一个产品。下面我想给大家介绍一下这么大的一个出行网络到底是怎么运行的,如何分城市地来运营我们这样一个出行平台。从去年下半年开始,我们开车网络就从全国 259 个城市发展到了 400 多个城市,基本上所有的地级市都已经开通了。我们希望达到的一个目标是城城通,同时在很多城市也已经做到盈亏平衡,或者已经开始盈利了。那么我们的城市团队运营方式是什么呢?有可能跟很多其他的互联网企业不太一样的是我们至少在一二线城市,同时在有些三线城市,每一个城市都有自己的小团队。每一个城市团队就等同于一个小的创业公司,基于滴滴出行的这样一个大的平台上。每一个城市团队有权限,也有责任把滴滴快车在所在的城市做到最好,同时不断地根据当地车时的独特性和特征推出各种各样的创新,让滴滴快车这样一个产品在所有城市都达到一个最高的渗透率。所以几百个城市,我们就有几百个创新点,这样一个分布式创新,我觉得能够给我们带来最快速的增长和迭代。所以每一个城市都相当于自己的一个独立的作战单位,一个城市有一个总负责人,他是这个城市的总经理,他底下有三个不同的小团队,运营团队、市场团队和体验团队。运营团队主要把握的是整个存量的用户和司机的一个活跃度,通过各种各样的手段和方法,来维护他们的活跃度,提高活跃度。市场团队这边主要负责我们的拉新,以及我们的品牌传播,通过线上线下的营销活动,跟类似品牌的合作,以及新媒体的一些运营,来把滴滴快车这个产品,以及这个品牌能够完全渗透到整个城市里面去。第三块就是体验团队,一个司机、一个用户在滴滴平台上,他到底能够留存多久,他到底能够有多活跃,我们认为有一部分是基于他到底体验是怎么样子的。所以我们专门有一个体验团队来关注,以及提升滴滴的产品在整个城市的体验。同时协助这个城市总经理,还有相对应 的HR、PR、GR 和经管等等。那我们为什么要这样做?具体三个原因。第一个是贴近市场。团队城市化、运营策略城市化、市场活动城市化,特别是在滴滴所做的这样一个 O2O 行业,其实城市和城市之间还是有很大的不同。比如,成都跟杭州非常不一样,北京跟深圳也非常不一样,用户的习惯不一样,车主和司机的习惯也不一样。我们怎么能够更好地去服务司机、吸引司机,服务乘客、吸引乘客。第二个原因就是快速决策。每一个地方都有自己的热点,每一个地方的竞争情况也不一样,每个地方也有自己的一些紧急事件,所以当我们每个地方都有一个比较独立的团队的时候,他们能够非常快速地去决策,针对性地来做快速的,并且有效的反映。‘最后一个最主要的原因,我们认为一个中心化的大脑不如几百个大脑分布在全国。每天,我们每个城市都在做各种各样的创新和尝试,各种各样的 AB test,所以迭代速度会更快。作为一个整体的组织来讲,我们的迭代速度更快。同时,因为是分城市来试错,所以试错成本也更低。所以通过这样一个分布式创新,相对来说比较独立作战的一个城市的这样一个网络,我们才能够做到今天滴滴在 400 多个城市能够运营起来,能够服务好车主,服务好用户。一个城市、一个城市地改变人们的出行。本文选自我专栏: ,获取更多创业者访谈和大咖精彩分享报道(内容/设计/产品/运营)欢迎关注哦。
本来只是凭着听课的印象信手写了几句,没想到水大赞了……马上补充。因为我不太会总结,也没有系统研究过,挑着讲些有趣的例子也算切题啦。评论里有说,内容全部来自《大数据时代》 (维克托·迈尔·舍恩伯格)一书。1.莫里的导航图,大数据的最早实践之一马修·方丹·莫里(Matthew
Fontaine Maury,年)是一位很有前途的美国海军军官。因为一次意外事故,他的腿留下了残疾,无法再在海上工作。美国海军就把他安排进了办公室,并任命他为图表和仪器厂的负责人。在过去,航海家都是通过口口相传的经验来判断走哪些熟悉的海路,但是莫里想绘制一幅新的航海地图揭开大海的神秘面纱。他所依赖的资料中除了一些陈旧的航海书籍、地图和图表;还有塞满了旧日志的发霉木箱,这些都是以前的海军上尉写的航海日志,包括对特定日期、特定地点的风、水和天气等情况的记录。大家不要受海贼王蛊惑觉得海上都是喝酒唱歌航海士都长得像娜美一样,真正的航海生活都是很枯燥的,船员们都是些无聊的寂寞大叔,他们的日志只是航海途中打发时间的业余娱乐而已,页面上尽是奇怪的打油诗和乱七八糟的信手涂鸦。就是从这样“大量冗余非结构化”的数据中,莫里和他的20台“人肉计算机”,整理出了一份航海地图,他把整个大西洋按经纬度划分成了五块,并按月份标出了温度、风速和风向,就这样提供了有效的航海路线。再后来为了获取更多数据,莫里创建了一个标准的表格来记录航海数据,要求美国所有的海军舰艇在海上使用,返航后再提交表格,后来包括一些商船也加入了其中。航海路线图就能不断得到完善。1855年,莫里的权威著作《关于海洋的物理地理学》(The Physical Geography of the Sea)出版,当时他已经绘制了120万数据点了。在这些图表的帮助下,年轻的海员们不用再亲自去探索,而能够通过这些图表立即得到来自成千上万名经验丰富的航海家的指导。那个时代没有计算机没有互联网,只有最早的大数据思维的萌芽。2.日本先进工业技术研究所的坐姿研究与汽车防盗系统日本先进工业技术研究所的教授越水重臣所做的研究是关于人的坐姿。当一个人坐着的时候,他的身形、姿势和重量分布都可以量化和数据化。越水重臣和他的工程师团队通过在汽车座椅下部安装总共360个压力传感器以测量人对椅子施加压力的方式。把人体屁股特征转化成了数据,并且用从0~256这个数值范围对其进行量化,这样就会产生独属于每个乘坐者的精确数据资料。在这个实验中,这个系统能根据人体对座位的压力差异识别出乘坐者的身份,准确率高达98%。这项技术可以作为汽车防盗系统安装在汽车上。有了这个系统之后,汽车就能识别出驾驶者是不是车主;如果不是,系统就会要求司机输入密码;如果司机无法准确输入密码,汽车就会自动熄火。接下来的研究就有更多的可能性啦,比方说,我们可以利用事故发生之前的姿势变化情况,分析出坐姿和行驶安全之间的关系。或者在司机疲劳驾驶的时候发出警示或者自动刹车,或者通过收集到的数据识别出盗贼的身份。或者逗比点,通过副驾驶位置判断车主有没有出轨过?……
3.飞机票价预测
2003年,计算机专家奥伦·埃齐奥尼(Oren
Et z i on i)准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼。他知道飞机票越早预订越便宜,于是提前几个月就在网上预订了去洛杉矶的机票。在飞机上,埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得知虽然那个人的机票比他买得更晚,但是票价却比他便宜得多时,他非常气愤。埃齐奥尼下定决心要开发一个系统,分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。如果一张机票的平均价格呈下降趋势,系统就会帮助用户做出稍后再购票的明智选择。反过来,如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购买该机票。埃齐奥尼创立了一个预测系统,它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41天之内的12000个价格样本基础之上,这些数据都是从一个旅游网站上爬取过来的。这个预测系统并不说明原因,只推测会发生什么,只是利用其他航班的数据来预测未来机票价格的走势。“买还是不买,这是一个问题。”埃齐奥尼给这个研究项目取了一个非常贴切的名字,叫“哈姆雷特”。噢……他的公司名叫forecast,大概让航空业损失了数百万潜在收入。这个故事告诉我们,没事不要去惹程序员……2008年,埃齐奥尼计划将这项技术应用到其他领域,比如宾馆预订、二手车购买等。但是在他实现计划之前,微软公司找上了他并以1.1亿美元的价格收购了Forecast公司。而后,这个系统被并入必应搜索引擎。
4.美国折扣零售商塔吉特与怀孕预测
某一天,一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店,要求经理出来见他。他气愤地说:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓励她怀孕吗?”而当几天后,经理打电话向这个男人致歉时,这个男人的语气变得平和起来。他说:“我跟我的女儿谈过了,她的预产期是8月份,是我完全没有意识到这个事情的发生,应该说抱歉的人是我。”这就是
提到的那个真实的段子。塔吉特在孕妇父亲都不知情的情况下准确预测出了一个女性的怀孕情况。他们收集每个顾客可以收集到的所有数据,然后通过相关关系分析得出事情的真实状况。具体做法是首先查看签署婴儿礼物登记簿的女性的消费记录。登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月之后,她们会买一些营养品,比如镁、钙、锌。公司最终找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券。怀孕是一对夫妻改变消费观念的开始,他们会开始光顾以前不会去的商店,渐渐对新的品牌建立忠诚。所以对零售商来说这个预测很有意义。5.terrorists(好像就是这个词过不了审核!)预测我们经常听说某地区的警务人员通过对一些特定事件的检测预防犯罪从而显著降低犯罪率。而美国国土安全部正在研发一套名为未来行为检测科技(Future Attribute Screening Technology,简称FAST)的安全系统,通过监控个人的生命体征、肢体语言和其他生理模式,发现潜在的terrorists。研究者认为,通过监控人类的行为可以发现他们的不良意图。美国国土安全部声称,在研究测试中,系统检测的准确度可以达到70%。(测试方法并不可知,难道是要志愿者假扮terrorists,然后看看系统是否能发现他们的不良意图吗?)该研究还处于早期阶段,如果成功,以往的预测when&where会发生犯罪就直接精准到了预测谁会犯罪的程度。当然这个项目完成之后可能会引起关于犯罪倾向如何惩罚的争论。
天气预报!上至政府决策,下到平民百姓,都用得着。而且气象界都玩大数据上百年了,预报正确率比这些金融以及什么用户行为预测高不知道多少倍。不然你以为天河这种大型机都是谁用啊。主要是气象界吹牛逼能力太低,也不见什么人写本书来吹下,例如《大数据:我们都玩上百年了你们才开始》这种书,哈哈!
已有帐号?
无法登录?
社交帐号登录

我要回帖

更多关于 请问日体育i哦派 的文章

 

随机推荐