我把手机软件删了好几个后来nba技术统计找到

大数据应用除了在体育项目中,还有哪些切身感受得到的应用案例?
根据的内容,德国足协与SAP公司合作,定制名为“Match In-sights”的足球解决方案,用以迅速收集、处理分析球员和球队的技术数据,基于“数字和事实”优化球队配置,提升球队作战能力,并通过分析对手技术数据,找到在世界杯比赛中的“制胜”方式。这是大数据研究和应用在足球领域取得的实质性成功。但目前来说,这仅仅是世界杯上的成功,是特例。除世界杯之外,在联赛当中,这样的大数据搜集、研究、分析,是不是也可以获得相似的成功?放到其他体育项目,比如NBA,能否有类似的大数据研发项目?抛开体育这一块(世界杯这个成功案例搞得大数据研发好像就是为体育领域定制的),其他行业有没有可能取得这样的突破?有没有一些实质性的研究结果和案例?
按投票排序
蟹妖。“大数据”(Big data),实际上意译作“高频复杂数据”更贴切一些,也更便于非从业者直观了解这个词的含义。( 就像firing
table指的不是火力程度的计数而是发射角度的计数一样,火力表的翻译平铺直叙但是并不达意思。)由于“大数据”的大并非指单纯的数据量庞大,即便是1DB大的数据库,如果仅仅是一张简单的二维表,里面填满唯一主键构成的简单数据,也没什么难以处理的,只要硬件设备能跟上,基本上中学生学过C也就足以处理这份数据了。并不需要整个社会这么大张旗鼓的研究和鼓吹。IBM定义“大数据”有4个V的标准(量级Volume,多样性Variety,价值Value,速度Velocity),这点毋庸置疑(当然,还有所谓的5V或新3V。强调Veracity),但是很多书籍上定义的量级Volume起始计量单位是PB(1000TB)起,那么现在绝大部分自称的“大数据应用”是不足以称之为大数据的。要知道,整个中国去年一年的数据产生量也仅仅是0.8ZB(800PB)。至少提问者提到的Match
In-sights软件产生的数据,是不够这个量级的。现在更多研究的有意义的“大”数据,更多的是针对不同独立的数据集(data set)进行合并分析,进而形成关联性和额外信息,用于现实,这是“大数据”的意义。纠结于定义大小之类的,并没有什么帮助。由于新的处理方法,普遍无法使用单纯的人工和原始的编程方式来解决,更多的需要是对不同类别的数据进行汇总进行处理,包括统计分析、建模、模拟抽样、乃至预测。SAS是代表作。数据处理的这种方式,其次才是大数据应用和采集的意义之所在。虽然人家谦虚的自称sequence retrieval。在这方面,美国的华莱士…哦不是,美国的科研机构比我们不知道高到哪里去了。所有具体研究“大数据应用”的专题,鲜少有自称“Big data”,或将其用作自己研究内容的关键词的。也因此,名义上的大数据科学或大数据工程,现在连纸上谈兵的资本都还不足。本身没什么理论支持,更谈不到一门学科。与传统的数据统计、数据分析之类的区分界线也很淡薄,更多的是具体案例的应用和应对。而现在最爱鼓吹大数据的,往往都是不从事具体工作的新闻工作者们。我见过的所有谈大数据的论文,也都是泛泛而谈,性质和科学研究没什么关系,主要是报道和命名性质的(这种论文是存在的)。真正涉及大数据的论文,则普遍在认真讨论方法而非数据形态。最多用到PB级别数据的工程论述,大多是地理类数据。这类数据一年就有数十PB产生。“智慧城市”的数据一个季度就是大约有200PB,每个高清摄像头一个月产生1.8TB的数据,每天北京市的视频采集数据量在3PB,一个中等城市每年视频监控产生的数据在300PB左右,国家电网年均产生数据510TB以上,而其他像搜索、地图、社交、影视娱乐类等互联网公司也拥有PB量级的数据储备(以上数据来自《大数据史记2013》)——但这不说明就是大数据。拥有和处理是两码事。或者说,前者应该叫海量数据,经过处理的海量数据才叫大数据。(所以通常自称大数据工程师或工作是大数据相关的,一般和骗子没什么区别,很难具体到某一方面的大数据业务,是屠龙之技。编造职位和过往履历时,要么说自己是大数据分析工程师,要么说自己是数据工程师,也能好很多。)提问者是从世界杯谈起的,那么先说不除了体育方面,因为提问者的距离没有任何内容——常见的体育运动方面“大数据”应用分为两部分,一部分是分析,一部分是预测。但是这两者说是数据工作也可以,没必要非说是“大数据”。量级也往往不够PB。体育类的数据分析应用,通常是由科研或学术机构发起的。这个行业最著名的会议叫做MIT
Sloan Sports Analytics Conference(,这个“斯隆”和伟大的爵士杰里·斯隆毫无关系)。主要参与人员由两类人组成:职业体育从业者,数据分析科学家。拓扑数据分析是最常见的分析方法。还有其他很多,包含的大量的人工智能、视觉仿真、人体运动学的科学在内。举个例子:图示就是一种将现实映射为模型化的拓扑分类方法,建模形成简单数据集的集合后进行下一步分析。这种方式是从医学来的,而非运动学首创。但是在体育运动学的分析计算时,大量应用了该方法。更简单的例子则是这样的:离篮板越远,前场篮板越不好抢——这是我们普通人的观感。每距离篮板多一英尺,拿下前场篮板的几率就会降低1%,但距离超过三分线时,几率重新变大。此外,90%投丢的球都可以在距离篮板11英尺的范围内拿下——这是科学家根据数据分析得出的结论。()如果你经常关注斯隆体育大会的NBA相关研究会经常看到这二位仁兄——Rajiv Maheswaran和Yu-Han Chang,他们有大量相关研究,甚至对NBA的镜头摆放和有效镜头也提出了自己的看法(),并且真的改变了大量数据软件分析公司的镜头使用方式。去年这俩哥们拉上一个叫做Jeff
Su的伙计组件了运动数据分析公司Second Spectrum,最常见的业务就是将运动追踪镜头捕捉的数据收集起来,然后让机器学习并分析,给出分析结果和结论。今年的斯隆大会,他们又做了篮板统计的量化分析的三种方法(《The Three Dimensions of Rebounding》,链接:),拿了大会的最佳论文奖。往往这类工作用于提供给非专业人士的复杂数据还需要一项工作:可视化。这个工作由软件公司来代为完成。还有一种分析,则是统计数据的量化评估。与前一种给出如何得出数据的分析不同,这种分析是利用已有的统计数据做结论。这工作其实和普通公司的量化评估没有两样,都是通过统计数据得出的结论。关于这类工作,
张公子曾经做过评议(),个人认为说的很对。如果实在是对这东西无感,直接看帅哥电影《点球成金》(Moneyball),奥克兰运动家队经理Billy Beane通过小球会取得成功的方法就是放弃普通球探方式,直接将数据化用到球队交易和选秀上,获得了创MLB历史战绩的连胜纪录。虽然有不少美化和过简单的镜头式语言表达,但是数据分析在21世纪开始正式成为北美职业体育的一项重要工作。而非单纯的赛后统计。最早最成熟的数据量化和这种可视化分析,都出现在美式橄榄球场上,早期的NBA统计,其实只有得分篮板助攻等很少的几样,所以张伯伦也没有完善的盖帽统计。现在球迷们也大都只关注老五样(得分、篮板、助攻、盖帽、抢断),然后还有出手数、命中率、出场时间之类的数据,能扯扯这些的,大概就算看球略入门了。然而根据这些统计数据进行的诸如PER、Efficiency、FantasyRating、+/-、TS%等等数据,则是从单纯的赛后数据列表上看不出来的,而是根据一系列制衡指标计算出来的。例如真实命中率(TS%)就是根据球员的所有得分(2分、3分、罚球)一并计算的:PTS / (2 * (FGA + 0.44
* FTA))这些是混几周论坛就能做到的数据球皮要能侃侃而谈的。而到了现在,数据量化到了什么地步呢?来看斯隆体育大会上的论文(2012年的最佳体育革新奖):Alagappan把球员分成十三类:进攻控球者——杰森特里和托尼帕克;防守控球者——麦克康利和凯尔洛里;综合控球者:贾米尔·内尔森和约翰·沃尔;投篮控球者——斯蒂芬库里和马努吉诺比利;角色控球者——阿隆阿弗拉罗和鲁迪费尔南德斯;三分篮板手——洛尔邓和蔡司·巴丁格;得分篮板手——德克·诺维斯基和阿尔德里奇;三秒区保护者——坎比和泰森钱德勒;罚球线保护者——凯文·勒夫和格里芬;NBA一阵型——凯文杜兰特、勒布朗詹姆斯;NBA二阵型——鲁迪·盖伊、卡隆·巴特勒;角色球员型——肖恩·巴蒂尔和罗尼·布鲁尔;以及独孤球员——优秀到电脑无法进行分类,也无法与其他球员进行联系。例如德里克罗斯和德怀特霍华德。而根据这个分类分析,森林狼的球员分类明显不均衡,而上一年的达拉斯小牛明显更均衡。(这位讨论这套分类模型的时候,还是在校生。)篮球运动方面存在着大量的统计数据,而这些数据还由时刻、场上情况、队友指数、上场时间等等一系列复杂因素导致不同的结果。这就是典型的复杂数据——而且瞬发。群体运动项目中,这就足够典型的“大数据”了。但是这数据量仍旧不够PB级别。NBA几位著名的数据量化球队经理/经理人,包括中国球迷最熟悉的火箭队莫雷(这个身高将近2米的胖子从来没有参与过与篮球运动直接相关的工作,麻省理工的MBA…等等,又是麻省理工?),ESPN最著名的球评人约翰·霍林格(虎扑绰号火灵哥,著名的PER值Player Efficiency Rating(球员效率值)创始人),相比而言,刘翔的训练成果和什么“三大一从”、“一元训练理论”关系甚微,和孙海平的关系也没有想象中那么严苛。反倒是中期改变动作时和体育大学联合开发的数据分析软件(内部名称就叫什么什么fly,嗯没错,就是刘翔最爱的英文单词)关系更紧密一些。后一大类有关运动的大数据应用,叫做“运动预测”,则是纯粹性质和意义上的预测。例如微软和百度在世界杯结束后均宣布自己预测正确率超过80%,其实并非首创运动预测,这也不是行业内第一次做这类数学预测。最传统的数学预测方式,是类似538()动辄使用的泊松分布回归分析法。这类方法用于预测评议类选项时的正确性颇高(参见538预测从总统到奥斯卡的历次成果),但是在足球比赛的结果预测上往往不尽如人意。微软的预测分成好几部分在做,一会儿是微软研究院与Office团队共同开发了一款Excel工具,一会儿是微软的个人语音助手Cortana,百度则只有一个工作部门弄了这个预测:“百度大数据实验室负责人张潼教授进行了解答:…我们选择了以下5个方面的数据:球队实力、主场效应、近期状态、大赛能力以及博彩数据。对这五个维度的数据进行收集后,我们使用由大数据实验室的科学家们设计的机器学习模型对数据进行汇总”、“搜索过去5年内全世界987支球队的3.7万场比赛数据,并与国内著名彩票网站乐彩网、欧洲必发指数独家数据供应商Spdex等公司建立数据战略合作伙伴关系,将博彩市场数据融入到预测模型中”……实际上,对于这些预测方式,数据的采集才是他们的难点(重点数据在于球队实力的数据化、近期球员状态的数据衡量…),这些采集无论是主观性还是大量冗余信息的存在都难以进行有效的预测,而采用博彩数据进行核定才是重中之重。当然,我个人建议百度以后加上乌贼刘指数做为重要权重予以参考。这种方法也并非在这两年才有,创立于上个世纪的Tipp24()应该是最早把这个做出名的企业,他们专门针对欧洲博彩业进行下注和预测。必发指数和凯利指数的数据统计应用也是各类博彩网站必备的手段之一。其实方法上更接近传统的统计分析,没必要非挂上大数据的名字。我们都知道竞技比赛开始之前是会有博彩公司为此开出赔率的,通过各博彩公司的赔率进行统合进行的预测,又可以称为“根据他人预测的预测”。实际上数据筛选本身就是由人工生成的数据产生的二次生成。实际上,前面所说的分析方法也应用在了预测方面,毕竟模拟现实本身也是计算机技术的一个研究方向。比较著名的包括科隆体育大学(German
Sport University Cologne)的世界杯预测,科隆体大很早就根据自己在足球运动方面的观察分析系统进行过各种有关比赛的预测。其中最著名的就是06年世界杯的德阿点球大战“纸条预测”,准确的靠高概率预测中了阿根廷守门员的扑救方向。但是对于整个比赛结果的预测,由于涉及大量现实模拟内容,而博彩的权重比例相对很低,预测结果并不尽如人意。预测结果大概和我用《冠军足球经理》凑两个队模拟十场的结果成功率差不多高。当然,科隆体育大学和德国足协合作的项目重点本身,也不在于赛事预测,2004年欧洲杯失利之后,德国足协就开始着手国家队训练方式的调整,有一个叫做Urs
Siegenthaler(译作乌尔斯·济根塔勒,瑞士人)成为了之后十年的德国队首席分析师。09年,Siegenthaler和科隆体育大学的Buschmann教授组成过31个小组,进行4类观察分析(当时使用的还是老版的Posicap)。这些都成为了球队训练的一部分。但是当把这些训练数据拿来做还原模拟的时候,预测结果却不尽如人意。简单说——仿真模拟之路还很长。因为分析预测与单纯的“预测”不同的是,标记和统计体系在观察分析下成为一项项更为细化的指标,指标量化变为质化结论的过程,本身就可以为球队的改善作出有效的帮助——当然,需要和教练员共同进行人工处理才可以实现最后的步骤。“预测”的现实意义,对于彩民来说更大一些。毕竟西方的成熟博彩业已经有了200多年的历史,大量的预测方法应用在各家博彩公司之中,例如elo预测、进球率比较法之类,而将博彩预测法的结果进行统计学归类,对于比赛预测不失为一种有效工具。抛开体育,大量的生活中的数据面临所谓的“大数据处理”,典型的案例即天气预测。各类气象指征瞬时发生,以典型的“高频复杂”的形式出现,给各类分析人员提供了大量的可参考数据,从这其中借用建模工具分析提取有效指标,是一种典型的“大数据”应用。同时还有金融行业交易时,各类金融期货数据,每秒钟因一个品种产生的买入卖出数据、量、需求量、成交价格…一秒钟即有12个数据,每小时42200个数据,加上技术指标和成千上万的品种,也是一种典型的高频数据。但是复杂程度?除非需要进行分析预测,否则单纯的指数并不复杂。 老师从事的用户研究和趋势研究后半部分,其实也是典型的长期讨论中的大数据研究。成熟的例子自然是亚马逊的用户行为分析,但是普遍得出的结论过于简单粗暴,分析复杂性还远远不够。常有军粉说在军事科学方面大数据如何如何,但是现在大到战场模拟仿真(天气、地形、敌我双方态势、后援预测…),小到武器的击发测试(发射速度、风速、射表指征、每一个测速点的形态、温度…),这些都符合瞬发数据。但是至于这些数据如何复杂,还有待商榷。没有具体到个体的态势分析,我个人认为还称不上大数据。这些其实是同质的数据,但是无论是否同质,最终都是0和1的表现形式。人为的认定数据有不同的维度,才是定义数据“复杂”的根本。需要有不同维度的处理,才会形成“大数据”的概念。要能够高效处理数据,将数据的冗余部分去处,将高效率低成本的数据存储起来,形成新的数据表达方法,这种数据融合、跨学科的数据挖掘,才是谈及现在“大数据”的根本意义。在数据界(data nature)里面形成一套完整的生态。数据库的发展过程是一个比较典型的例子,也为数据挖掘奠定了基础,机器学习是下一步工作,形成研究而非研究目标,才可以纵谈大数据。
答前预警:下方高能!这可能是本人在知乎上最长的一个答案么么哒。最近,有一则新闻,说的是苹果与IBM联手,“把IBM的大数据和分析能力带给iPhone和iPad平板电脑”,从而“创造一种新类别的商务应用”。“大数据”这个词又一次占据了各大媒体的版面和群众的视野。最早提出“大数据”概念的是麦肯锡,它当时这样说:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”2012年5月,IBM发布智慧分析洞察“3A5步”动态路线图,基于该路线图,IBM提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(Information
Integration and Governance)。其实,无论是麦肯锡,还是IBM,他们提出的这个概念,实际上很早就应用在了零售商业领域和科技领域。比如,大家熟知的沃尔玛的“尿布与啤酒”的故事、Google在2008年推出的Google
Flu Trends进行流感预测(虽然这货失败了)、还有那个有趣的关于Target知道女孩怀孕而父亲开始勃然大怒最后道歉的段子(Target基于25种典型消费商品构建的“怀孕预测指数”帮助Target在2002年到2010年间,实现销售额从440亿美元增长到了670亿美元的跨越)。传统的零售业态中,有一个在国外很流行的东西,也是我很熟悉的领域,即“会员忠诚度管理”,我个人的观点是,这是贯彻“大数据”理念最彻底的领域。“会员忠诚度管理”是一个非常复杂的系统,谈起这玩意儿,往往会涉及3大业务板块:会员系统、积分体系、客户服务。这三块业务构成了“会员忠诚管理”的基础。那么,什么样的企业使用这套系统呢?很多,比如,航空公司的常旅客计划、银行信用卡中心的客户服务与积分计划、海外零售行业的异业合作联盟,等等。我们不展开说具体的业务,我们只说这个系统做什么,如何运转。会员系统担负的职责是:获取顾客的基本信息对顾客按照消费指标进行分级,管理顾客的会员级别发放与管理会员卡积分体系承担的职责是:根据用户的消费情况,赠送积分通过积分绑定可兑换权益,实现品牌、体系内的消费闭环作为可等价物开展异业合作与资源互换积分与会员卡绑定客户服务承担的职责是:储存与管理会员资料解决会员与非会员顾客遇到的问题提高会员与非会员顾客对品牌的满意度维系会员顾客、转化非会员顾客为会员对会员顾客进行权益、活动等方面事项的告知我们即便是用如此简单的描述(虽然有点啰嗦)都可以发现,这3个系统的联动是围绕一个目标来进行的:提升品牌已拥有顾客的忠诚度,实现顾客在品牌内的持续消费与黏着,并在此基础上减少获客的成本。容易理解么?其实很容易理解。已有的顾客维系好了,满意度上去了,顾客会愿意驻留在品牌内,持续的对品牌进行消费,同时,顾客会愿意自发的进行口碑传播,从而带来新的顾客。这套系统运行的时间越长久、积分币值体系越稳定、纳入的异业合作越多、客户服务做的越好、会员分级管理越精细,对企业的盈利、顾客的留存、流失客户的减少就越有帮助。我们可以设想一下,这套系统是如何实现“大数据”应用的:百货商店A,通过与公司B合作,通过利用该商店会员卡了解交易量变化和用户忠诚度的变化,加上通过一些媒体和调研建立消费者行为数据,得出能够促进消费者消费活跃与忠诚度上升的商品与活动,从而进行针对性营销,对不同偏好的顾客发放不同的营销手册,从而促进了销量的增长。这家百货公司A是美国的梅西百货(2013年有至少15%的销售来自电子商务,其在北美门店的布局、品牌组成、货品组成都是基于用户的消费数据计算而完成)。这家合作公司B是德恒(曾帮助Tesco扭亏为盈)。这个应用场景是梅西百货推出的“我的梅西百货”计划。无独有偶, 某通信运营商C联合了某互联网公司D,利用签约手机的地理位置信息,为顾客提供类似黄页的服务,推送附近的餐饮信息、末班车信息及其他营销活动。同时,由于当地NFC技术的发达,运营商也了解用户的消费行为和偏好,从而将这些数据进行整合和挖掘,找到新的市场。这家运营商C是日本Docomo,互联网公司D是Twitter。他们的合作似乎并不成功,但却是利用庞杂数据进行整理与归纳并找出新的盈利点的有趣尝试。题目里说到的体育,于是请让我要吐槽一下百度预测在这次世界杯预测中的作法(谁叫我没有按照它预测的买彩票啊啊啊~!):这是决赛的预测雷达图,我们看到了什么?原来百度的世界杯预测基于5个维度:球队实力博彩指数大赛能力主场效应近期状态这样的维度,首先要看用于什么用途,对于我看到的百度预测的用途来说,对于彩民,或许是有用的,有这些维度已经够了,但是如果我们对比一下题中描述的“Match In-sights”,那百度预测这样的数据维度能否帮助球队的训练、战术的针对性安排与实力提高呢?明显是差不少。首先,缺少环境因素指标:天气-球员对天气的适应性;场地-球员对场地的适应性、场地对战术安排的局限性或促进性等等然后,缺少球员习惯指标:位置有利足习惯(突破?传球倾向?传球习惯?)等等;缺少教练的战术习惯指标:阵型倾向进攻与防守倾向压迫倾向防守强度换位习惯等等……当然,我们可以看到并且感到惊讶甚至惊艳的是,这是一个非常非常有趣的尝试,并且做的很不赖,我们可以期待的是,未来这样的大数据系统会产生更大的作用,带来更大的价值。同时,我们也应当意识到,在互联网领域,搜索引擎是天生具有大数据应用研究与实践潜质的产品类型,所以你看,Google尝试了流感预测,百度也开始玩预测(不仅仅是世界杯预测,还有城市、景点、高考、疾病预测,包括看它未来好像还打算做房地产、票房、就业、金融方面的预测,有兴趣的可以上了解,挺有趣)。最后,有一些话不吐不快。“大数据”这个概念,太多的人有误解。并不是说你掌握了越多的数据,越细的数据,就有机会通过“大数据”来获得一个金矿。这里的关键点在于你如何分类、利用、整合、分析这些维度的数据,并非所有维度的数据都有用。举一个很简单的例子,这个例子其实很贴近我们的日常生活,甚至有可能会给一些想创业的朋友一些灵感。一个餐厅,对半径5公里的写字楼提供外卖服务。请问,这个餐厅有大数据么?如果有,可以利用大数据做什么?这个问题,如果我来回答,我会说,有大数据,这个数据是什么呢?是一个固定阶段里,写字楼员工对外卖的消费习惯,这个消费习惯对接了哪些指标呢,我随便YY一下哈:公司业绩发展情况。半年里,一些公司的外卖少了,一些多了,如果1年后还是这样的趋势,说明有些公司的业绩在下滑。能做什么呢?你猜。餐厅菜品和其他服务的可提供程度。订餐者的口味在各个季节有没有变化,一定有,那么夏季是不是可以增加清凉饮品的订购或者赠送,冬季是不是可以增加热饮甚至汤类的供应?那是不是可以去搞一些赞助或者夹一些广告?是不是可以研发新的菜品?写字楼白领的消费能力。白领订餐的客单价是否越来越高,每年提价之后,白领是倾向便宜的套餐,还是无所谓保持自己的口味?这些指标做什么用,我想是有很多想象空间的。好了,假设这家餐厅生意兴隆,开了很多分店,覆盖了多个商圈,又会怎样呢?留给大家去思考吧。我觉得这是一个很有意思的话题。真长,考虑一下放到俺的专栏去,嗯嗯。
-前记题目问的是大数据的应用,但是关于大数据,我有一些话想说,因此这篇文章基本上写成了我最认真写的回答之一。大数据和O2O,似乎是现在所有大公司必不能缺少的业务,也是许多创业公司若能则尽可能傍上的大腿级概念。但我一直觉得,对于一般的创业者和中小型公司而言,O2O几乎没有搞头,主要问题出在线下,即不了解线下,又吃不了苦去深耕去动苦力地推。今天互联网思维被热炒,说的有“开放”、“分享”、“自由”、“创新”等一堆关键词,但实际上真正勤恳做事的人,没有人出来说思维,只会说事。我甚至觉得,在虎嗅知乎上面,我一看到互联网思维,我就觉得它脸上还写着“投机取巧”、“自大而不肯落下凡尘去吃苦”。不是那些辞职卖猪肉成功的人有互联网思维所以成功,而是因为即肯想,又肯干。今天大多做O2O,特别是做O2O创业的人,很肯想,但不太肯干、吃线下的、地推的苦。但大数据不同,它纯线上,且机会在于,今天可以获取到的数据已经和多年前不一样了。不只是移动互联网,不只是手机、LBS、麦、螺旋仪、空气检测器,还有和题目这个例子里面的相关的球员跑动数据,各个的士每时每刻在的位置,公交车多久到站及其平均在每段跑多久,交通拥堵情况,人的心跳体温血压体重酒精含量等等。如何理解大数据?我想说的如何理解大数据,不是在各种论文、报告里面的大数据的定义,我只是谈谈我自己的感受。作为年度热词,大数据被许多将懂不懂的人时常听到、引述,一般被理解为“大量的数据”,但我不这么理解,或者我认为,这么理解,意义不大。因为“大量的数据”是一直有的,从IT技术开始,数据就一直存在,谷歌百度Bing这类搜索引擎无疑获得了最多的数据,当然今天我们看到在人工智能、机器学习方面,他们的积累和研究估计也是最多。但是,似乎此前听到的大数据应用里面,没这几家什么事,至少我没听到什么有趣的应用。那么大数据是什么?我理解大数据是“新的数据”,和“新旧数据结合”,为什么今天的时代,大数据如此火热并且我也觉得它真的值得火,因为今天是移动互联网的时代、快要进入可穿戴设备的时代,所以新的数据指标、数据类型层出不穷,大数据此时真的是嫩得可以掐出水般诱人。我举个我听过且影响深刻的例子。第一个例子发生在芬兰,是我一个在芬兰留学的性格像产品狗的码畜朋友跟我说的。他在芬兰时很不安份,经常在上学同时参加各种创业沙龙、聚会、孵化器公开日等。他听到了许多极其有趣,在国内真是闻所未闻的例子(当然也可能是因为文化的原因所以国内听不到),其中我印象最深刻的一个,是他在诺基亚快死时弄的一堆孵化器公司里面的一个,就是关于大数据。这个例子的数据一点也不大,简简单单。它是一个专为钓鱼爱好者而做的钓鱼应用,它提供的能力是,你选择你今天想要钓什么鱼,它告诉你,在你附近有几个点,分别在哪里,有多大概率钓到几条这个鱼。Exciting!典型的大数据应用对吧,它的做法很简单,每个用户去某个地方钓鱼时,提供钓鱼日志功能,让你今天记录你钓了几条什么鱼。这对于用户来说非常自然,且有意义。而它会记录手机LBS位置、当地当时天气、温度、湿度以及其他可能的和鱼类出没有关的指标,在云端记录,加以简单分析,就可知道,某个区域,在什么条件下会出产什么鱼,再逆推,便知道你要某种鱼时,可以去哪里。这个公司在当时(2年前)便已盈利,用户好像是已有几十万且在稳步上涨,听着好像很少(我当时第一感觉也鄙视说少),但你妹啊芬兰总人口就几百万,且人家消费力不是镇内屌丝可比好吧。再比如,脑补一个场景,估计不久的未来可以实现。根据国人带可穿戴设备时,持续获取的步数、心跳、血压、体重、体检信息(即用户们得病的情况),以及一些医学数据库内的研究,提示你说,你这一年如果还像去年一样不锻炼一直宅着,有80%的概率在一年内罹患脂肪肝、肥胖病、颈椎骨质增生....我去想到这,我简直想在这个夜深人静的时候出去跑步了...大数据的国内现状国外的情况是,按照另一个米国留学男提到的,我查了一些资料。美国北卡来罗纳州立大学分校史德利·阿霍尔特曾经提到过,需要新的工具来使数据消费者进行大规模应用。“从2010年开始,每两天产生的数据就相当于历史上到2003年产生的数据总和。需要数据科学对这些数据进行分析、挖掘,利用。互联网使得数据的移动、共享和发现更容易,但研究和分析却不是那么容易的事情。”阿霍尔特以名为美国快捷药方的公司作为例子,这个公司宣称已有10亿个药方数据用于分析,他们通过预测模型找到了400个甚至更多的影响因素,来发现因病人不遵循用药规定带来的风险,让病人的邮购行为和处方高度一致——这一项研究每年可以减少损失高达3170亿美元。阿霍尔特强调,必须有专门的数据科学家进行大数据的研究以及应用工作,“他们必须能获取数据集,对它们进行数学建模,以及懂得建立模型的所需要的数学理论。他们必须能发现并阐明数据揭示的问题,即从数据中发现合适的问题。”在国内,大数据有不少企业和实验室也在研究,归根到底,目前走的还是实验方向,以及预测和分析为主体的探索过程。不过现在也有一些有成果的例子。比如百度大数据的世界杯预测,着实震撼到我,除了预测准确度之外,很高(见下图),还是足球这种我觉得不确定性大过天的事情。我只能说,这次百度让我竟无言以对,真是枉为百度一生黑。我不太清楚百度做世界杯预测花了多少时间和团队精力和资源,或许几十人,3个月?但如果说就是这几十人在3个月内做到这一切,就好像在说吃5个包子可以饱所以就直接吃第5个包子一样。百度在人工智能、机器学习方面的积累和努力,我并不清楚具体是从什么时候开始,但从2个事情来看,估计非常之早。一是Andrew Ng(Google Brain之父,世界级技术大牛,现在做百度大脑项目)的加盟,二是百度的基因。百度的基因是技术。这点和阿里的基因是运营,腾讯的基因是产品一样。基因指的就是解决问题的思路和方法。比如阿里,无论啥事儿,就是想着怎么推,典型的是来往的员工配额计划;再如腾讯,无论啥事儿,就是想着产品设计怎么搞体验要怎么好。所以阿里做重产品的活儿很难成,腾讯做运营的活儿很难成。而百度比较有意思,相对介于两者之间,做产品做运营都不一定不好,它的思路是基于技术。形象化点打个比方,就大数据这个事:1. 百度会有一个科学怪人在想,哎呀哎呀,听某学术杂志上的最新论文(如XX年1月)说,实现一个钉子那么小的物件挂在耳朵上,就可以全天候获取这个那个数据,简直碉堡了!快研究研究。7月,研究出来了,技术团队极其兴奋写了个报告给老板,老板就安排产品团队开始想,这个技术可以怎么用啊,可以用来搞啥啊?想清楚后,做出产品来,10月。2. 腾讯会有一个产品狗蛋在想,现在可穿戴设备这么多了,我妈妈昨晚还跟我说现在她带了百度的那个东西在身上,怎么也没就之前告诉她她会生病啊,不是记录了我的步数、心跳、血压么。于是产品狗蛋写了个PPT给老板说他初步推测,百度的技术咱们研究研究挖挖人,估计可以实现,11月。研究技术,次年2月,出产品,次年2月。3. 阿里会有一个运营土豪在想,百度腾讯做的那个东西,我卖差不多的,用聚划算卖,捆绑销售。嗯还送淘金币好了。其实没什么好坏,只是各有优劣,比如阿里的虽然卖得快,但容易没啥自己的产品和想法和思路,长期搞不定,大数据上,阿里的类别也的确最难搞,时尚趋势或者未来流行啥,实在是偶然性太大太大了。百度的虽然技术积累好卖得快,但容易因为是借着技术想需求,容易想到脑补或者超前的需求,掉大坑里去。而腾讯的虽然产品需求踏实体验好,但时间滞后,而且跟(chao)随(xi)策略被人诟病。从大数据目前更多是数据积累阶段,还未出现百花齐放,许多有趣而酷的大数据应用出现的情况来看,百度此时的数据和技术积累估计是最多的。从这次世界杯预测的情况来看,也的确如此。但是也确实有可能产品需求上落坑,比如根据本次世界杯预测的能力,花大精力做了一款产品结果没人需要...此时的情况,似乎很像例子里说的XX年1-7月。未来会如何?-
关于这个问题,我个人的感觉是:现在说“如何充分利用大数据、借助大数据掘金”有点早。就好比道长的答案所说(
道长你不要拿学术口来打压我这种“民科”我被群嘲过好多次了谢谢),大数据目前的问题在于数据处理和挖掘,而且是“对不同类别的数据进行汇总进行处理,包括统计分析、建模、模拟抽样、乃至预测”。 这说明大数据的方向并不是单纯的领域内数据,也不是单向性流动的,而是多领域内的数据应用,是复杂的抽取、汇总、处理的过程。如果需要,数据搜集范围甚至可以扩散到大洲和全球范围内。既然问题的补充说明当中说到了足球,我也从足球说起吧。貌似除了足球稍微懂得多一点之外别的我还真是二货民科了……关于之前新闻报道的“高盛经济学家通过建立数据模型,分析自1960年以来超过14 000场国际比赛,最终得出了他们对本届世界杯的预测结果——五冠王巴西在家门口捧得第6座金杯的可能性高达48.5%,而名列第2的则是桑巴军团的宿敌阿根廷”;我想说的是,这类宏观的数据,时间跨度太大了,在大数据概念还没有出来之前,就有分析指出:1960年到1986年的世界杯/欧洲杯的正赛和大洲预选赛,以及各场国际友谊赛结果,无法为1986年之后的国际大赛分析和预测提供足够有说服力的依据。一个流行的观点:欧洲顶级联赛的变革期从1984年欧洲杯之后的意甲联赛坐大开始。1985年的海瑟尔惨案使得现代足球的重心回到欧洲大陆,意甲联赛的崛起和欧洲三大杯的成熟让职业足球的商业化进程加快,职业联赛的权重系数,职业球员当中外援的数量和表现,以及联赛的赛场数据得到了更多的重视。从国际足球历史和统计联合会(IFFHS,全称International Federation of Football History and Statistics)的成立时间可以看出这个观点的合理性。请注意,这个合理性只能从一个方面进行说明,无法提供必要的论据。IFFHS是一个由FIFA认可的、进行足球数据与历史统计的机构,成立于日,由Alfredo P?ge在德国莱比锡创建,目前总部设在阿布扎比。该组织自1991年起根据洲际俱乐部赛事的俱乐部表现制作世界俱乐部排名,对于联赛水平的评判标准纷繁复杂,主要项目包括联赛俱乐部在洲际比赛中的成绩,联赛中外援的数量,该联赛在该国以外的收视率,以及激烈程度,联赛密度等诸多项目。另外,当时的国内足球刊物曾经提到,1986年和1990年世界杯,开始有了射门次数、进球、红黄牌、角球、定位球之外的统计数据:犯规次数。其最大的统计对象当属球王马拉多纳。当然,这只是数据统计健全的开始。在20世纪90年代后期,足球数据网站和专业数据公司出现,开始人工操作结合视频分析技术,在比赛中实时提供数据。直到后来,有了专业的体育数据企业出现,例如著名的体育数据公司OPTA,在每场足球赛中记录的数据多达1500项,但目前为止,尚不能说明这些数据的累积在比赛分析和预测上一定能起到立竿见影的效果。例如,2004年阿森纳主帅温格通过数据得知,当时还默默无闻的弗拉米尼一场比赛能跑14 000米,但是温格“依然不确定他是否跑对了方向”,直到现场看了他的比赛才决定和他签约。当然,只提到球员的比赛数据是不够的,在比赛的背后,还有医学健康领域的数据,用于球员伤情监控/预防。这才是我想说的重点。在国家队/俱乐部确定使用一名球员上场比赛之前,首先会有这名球员的身体机能数据。这份数据基本上通过国家队/俱乐部医疗部门的体检结果累积,或者通过与国家队/俱乐部合作的医院的检测结果累积。其中关于身体机能的检测数据项目多达50项以上。在俱乐部层面上,培养一名球员,会根据他的健康状况确定合理的饮食计划,并结合系统训练,以及比赛的监测结果不断调整。这样的计划会一直从俱乐部延续到国家队。在这方面,设备和理念最先进的是意大利AC米兰俱乐部的米兰实验室——2002年建立,投入500万欧元以上、花费18个月时间建成,目的之一就是为球员专门组建数据库,用于保证运动员竞技状态的受伤风险预估。米兰实验室可以从球员的肌肉类型和生活习惯等方面进行前期数据收集,再分析数据以便对球员状态进行预测,甚至每个球员的伤病情况诊断、恢复期、康复内容,都要依靠对这些数据的分析和整理。数据搜集和分析大概包括:球员肌肉类型、身体结构和机能、历次体检状况等属于医学类数据,每场比赛中球员的各项数据(冲刺次数、跑动距离等)属于比赛数据,场地温度、湿度等属于天气数据、各项训练强度监测属于训练数据。等等。在每场主场比赛时,球场四周有8台摄像机收集球员比赛中的数据。每两周还会安排一次球员的体检,包括身体结构和机能,生物化学、生物物理、情感和心理等方面,以上数据经过汇总,组成庞大的球员数据库。另外,米兰实验室的心理学家德米凯利斯教授(这个名字好诡异)在实验室内部的“MindRoom”帮助球员战胜心理压力,德米凯利斯会根据球队的赛程来制定合理的心理教学大纲,在联赛、冠军杯和意大利杯中找到一个正确的平衡点,让他们成为训练的主角,而非被动地去接受训练。在互联网的高速发展下,球员的治疗和健康数据成为伤病治疗过程当中极为有价值的参考依据,以便球员在客场或国家队作赛过程中出现伤病之后进行综合分析。因此需要打通的是医疗数据的封闭性因素。一个很现实的问题,大多数外出比赛受伤的运动员会在当地建立病历、进行一系列检查;之前建立的数据量庞大的健康档案(其中包括大量的非结构化数据和半结构化数据,例如核磁共振、B超、心电图、脑电图、病理分析等)存储在运动员所在地的医疗机构当中,很难为临床数据对比、临床决策支持等给予应有的帮助。这些本地数据的存储量非常庞大,对于不熟悉受伤运动员具体情况的外地医生,在诊断活动中如果可以异地调阅这些数据,就能根据过往病史结合当今伤情,做出更准确的诊断,并给出治疗方案。通俗一点说,这是目前医疗信息化、国家/全球范围内医疗数据通用化的未来发展方向,也是能够惠及运动员之外的普通民众的一个大数据项目。如果这样的大数据存储、检索、实时分析功能真的能够普及,可以在临床诊断、疾病控制等方面得到充分应用,帮助医生实施更加有效、准确的临床诊断和用药决策。甚至能够协助政府公共卫生部门完成疾病预防和控制。我现在所持的疑问在于,医疗信息化、国家/全球范围内医疗数据通用化在医学术语的沟通上是否存在语言障碍,还有就是异地的诊断信息和治疗方案,本地的医师如何通过最无障碍的方式进行阅读。如果有这方面领域的达人,请私信指教一下,不胜感激。其他类似的例子:总部设在法国的数据公司SUP(Sport Universal Process)为多家欧洲俱乐部所聘用,进行数据分析。该公司的解决方案名叫AMISCO PRO,主要功能为:1.呈现球队球员二维跑动2.与比赛录像同步3.整合的图形工具:越位,模块,线条4.完整的个人和全队统计数据5.图表,表格,清单形式的数据6.测量身体活动和体质报告7.个性化规则8.可输出数据到第三方应用******************引用内容的分割线***************************在莫耶斯跳槽曼联之后,埃弗顿请来维甘竞技队的马丁内斯来当他们的新主教练。马丁内斯对数据分析的迷恋众所皆知,他在家里放了一台60吋的触屏电视,再结合能够记录分析球员表现的软件Prozone,每天反复观看球队的比赛录像,特别是输球的比赛,最多会看十几次,去挖掘其中的败因。在马丁内斯的指导下,埃弗顿会在训练中记录每个球员的每个动作:“我们用GPS和心率测量仪来监测每个球员的状态。从体能的角度来说,最显著的数据是冲刺数量、冲刺距离和每个球员投入的高强度运动次数。我们这样监测一整个赛季下来,就能知道一个球员目前状态是否疲劳,以及他需要多久的休息时间。”******************引用内容结束的分割线***************************提到医疗信息化、国家/全球范围内医疗数据通用化,不可避免地要说到百度的疾病预测项目。该项目目前就流感、肝炎、肺结核、性病这四种疾病,对全国每个省份以及大多数地级市和区县的活跃度、趋势图等情况,进行全面监控。我感兴趣的是,不知道百度疾病控制的大数据搜集,会不会源于搜索引擎对网络上患者描述自身病情的搜集。这些病情反馈当中,由于大部分患者并非实名描述,而且缺乏专业医学知识的支撑,加上太多的信息噪声,还不足以成为标准化数据,但只要病情描述无误,地点IP准确,应该是可以为病源地区、人群界定和病理推断提供依据。
只说说互联网领域的大数据,目前在中国互联网,大家泛指的大数据应用上,商业化比较成功的就是:智能推荐智能推荐的目前涵盖的范围已经比较广泛了,主要包括电商推荐,广告推荐,视频推荐,文学推荐还有很多很多。案例多了,基本所有大的电商网站上的“猜你喜欢”,腾讯qq空间的广点通广告推荐,视频网站上面的推荐内容等。别的不了解,但从腾讯公司财报中可以看出,广点通广告推荐的效果是非常好的。广告收入在之前占腾讯总收入7%-8%的样子,上线后广告收入占12%。并且是在游戏等领域收入增长近50%的背景下,可想而知,广点通对广告收入的拉动。这些推荐原理都差不多,根据大量用户的网上行为进行聚类和画像,利用逻辑回归等等机器学习算法计算兴趣,然后得到用户的兴趣列表,选择素材进行推荐。但是这整个流程,我只能说理念是使用的所谓的大数据分析的理念,使用的数据量级撑死也就是PB级,这算不算大数据我都懒得争。题主可以弄本《大数据时代》看看,里面有很多案例。作为从业者,我只能说大数据的路还很长很长,现在冰山一角都没到,却变成人人嘴上都挂着,不谈大数据都不好意思出门。最后,盗图一笑
本来只是凭着听课的印象信手写了几句,没想到水大赞了……马上补充。因为我不太会总结,也没有系统研究过,挑着讲些有趣的例子也算切题啦。评论里有说,内容全部来自《大数据时代》 (维克托·迈尔·舍恩伯格)一书。1.莫里的导航图,大数据的最早实践之一马修·方丹·莫里(Matthew
Fontaine Maury,年)是一位很有前途的美国海军军官。因为一次意外事故,他的腿留下了残疾,无法再在海上工作。美国海军就把他安排进了办公室,并任命他为图表和仪器厂的负责人。在过去,航海家都是通过口口相传的经验来判断走哪些熟悉的海路,但是莫里想绘制一幅新的航海地图揭开大海的神秘面纱。他所依赖的资料中除了一些陈旧的航海书籍、地图和图表;还有塞满了旧日志的发霉木箱,这些都是以前的海军上尉写的航海日志,包括对特定日期、特定地点的风、水和天气等情况的记录。大家不要受海贼王蛊惑觉得海上都是喝酒唱歌航海士都长得像娜美一样,真正的航海生活都是很枯燥的,船员们都是些无聊的寂寞大叔,他们的日志只是航海途中打发时间的业余娱乐而已,页面上尽是奇怪的打油诗和乱七八糟的信手涂鸦。就是从这样“大量冗余非结构化”的数据中,莫里和他的20台“人肉计算机”,整理出了一份航海地图,他把整个大西洋按经纬度划分成了五块,并按月份标出了温度、风速和风向,就这样提供了有效的航海路线。再后来为了获取更多数据,莫里创建了一个标准的表格来记录航海数据,要求美国所有的海军舰艇在海上使用,返航后再提交表格,后来包括一些商船也加入了其中。航海路线图就能不断得到完善。1855年,莫里的权威著作《关于海洋的物理地理学》(The Physical Geography of the Sea)出版,当时他已经绘制了120万数据点了。在这些图表的帮助下,年轻的海员们不用再亲自去探索,而能够通过这些图表立即得到来自成千上万名经验丰富的航海家的指导。那个时代没有计算机没有互联网,只有最早的大数据思维的萌芽。2.日本先进工业技术研究所的坐姿研究与汽车防盗系统日本先进工业技术研究所的教授越水重臣所做的研究是关于人的坐姿。当一个人坐着的时候,他的身形、姿势和重量分布都可以量化和数据化。越水重臣和他的工程师团队通过在汽车座椅下部安装总共360个压力传感器以测量人对椅子施加压力的方式。把人体屁股特征转化成了数据,并且用从0~256这个数值范围对其进行量化,这样就会产生独属于每个乘坐者的精确数据资料。在这个实验中,这个系统能根据人体对座位的压力差异识别出乘坐者的身份,准确率高达98%。这项技术可以作为汽车防盗系统安装在汽车上。有了这个系统之后,汽车就能识别出驾驶者是不是车主;如果不是,系统就会要求司机输入密码;如果司机无法准确输入密码,汽车就会自动熄火。接下来的研究就有更多的可能性啦,比方说,我们可以利用事故发生之前的姿势变化情况,分析出坐姿和行驶安全之间的关系。或者在司机疲劳驾驶的时候发出警示或者自动刹车,或者通过收集到的数据识别出盗贼的身份。或者逗比点,通过副驾驶位置判断车主有没有出轨过?……
3.飞机票价预测
2003年,计算机专家奥伦·埃齐奥尼(Oren
Et z i on i)准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼。他知道飞机票越早预订越便宜,于是提前几个月就在网上预订了去洛杉矶的机票。在飞机上,埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得知虽然那个人的机票比他买得更晚,但是票价却比他便宜得多时,他非常气愤。埃齐奥尼下定决心要开发一个系统,分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。如果一张机票的平均价格呈下降趋势,系统就会帮助用户做出稍后再购票的明智选择。反过来,如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购买该机票。埃齐奥尼创立了一个预测系统,它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41天之内的12000个价格样本基础之上,这些数据都是从一个旅游网站上爬取过来的。这个预测系统并不说明原因,只推测会发生什么,只是利用其他航班的数据来预测未来机票价格的走势。“买还是不买,这是一个问题。”埃齐奥尼给这个研究项目取了一个非常贴切的名字,叫“哈姆雷特”。噢……他的公司名叫forecast,大概让航空业损失了数百万潜在收入。这个故事告诉我们,没事不要去惹程序员……2008年,埃齐奥尼计划将这项技术应用到其他领域,比如宾馆预订、二手车购买等。但是在他实现计划之前,微软公司找上了他并以1.1亿美元的价格收购了Forecast公司。而后,这个系统被并入必应搜索引擎。
4.美国折扣零售商塔吉特与怀孕预测
某一天,一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店,要求经理出来见他。他气愤地说:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓励她怀孕吗?”而当几天后,经理打电话向这个男人致歉时,这个男人的语气变得平和起来。他说:“我跟我的女儿谈过了,她的预产期是8月份,是我完全没有意识到这个事情的发生,应该说抱歉的人是我。”这就是
提到的那个真实的段子。塔吉特在孕妇父亲都不知情的情况下准确预测出了一个女性的怀孕情况。他们收集每个顾客可以收集到的所有数据,然后通过相关关系分析得出事情的真实状况。具体做法是首先查看签署婴儿礼物登记簿的女性的消费记录。登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月之后,她们会买一些营养品,比如镁、钙、锌。公司最终找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券。怀孕是一对夫妻改变消费观念的开始,他们会开始光顾以前不会去的商店,渐渐对新的品牌建立忠诚。所以对零售商来说这个预测很有意义。5.terrorists(好像就是这个词过不了审核!)预测我们经常听说某地区的警务人员通过对一些特定事件的检测预防犯罪从而显著降低犯罪率。而美国国土安全部正在研发一套名为未来行为检测科技(Future Attribute Screening Technology,简称FAST)的安全系统,通过监控个人的生命体征、肢体语言和其他生理模式,发现潜在的terrorists。研究者认为,通过监控人类的行为可以发现他们的不良意图。美国国土安全部声称,在研究测试中,系统检测的准确度可以达到70%。(测试方法并不可知,难道是要志愿者假扮terrorists,然后看看系统是否能发现他们的不良意图吗?)该研究还处于早期阶段,如果成功,以往的预测when&where会发生犯罪就直接精准到了预测谁会犯罪的程度。当然这个项目完成之后可能会引起关于犯罪倾向如何惩罚的争论。
现实生活中非常多,很多大家都已经提到过了。我也说一个,像视频网站,现在都有广告推送,但是这个推送并不是盲目的,而是通过大数据分析你观看的视频类型来推测你的性别,年龄,甚至消费能力,进而推送不同的广告。举个例子,看球类比赛的男性朋友多,韩剧,综艺节目的往往女性多,而关注新闻类节目的普遍年龄偏大等等。
1.金融,银行业:银行的资金交易平台,头寸管理等,都是基于大数据的,资金拆借,资金分配,风控加权等等。2.电商企业:淘宝,亚马逊,京东等,根据建模做到细化分配与调整,趋势预测等等。3.基金证券类。比如余额宝,在吸储之后,怎么合理利用,包括多少存银行协议存款,多少投资基金等,在电商活动时或者促销时,就要计算资金流出,包括支付宝转出和支付宝账户间流转。将资金收益最大化,同时也要降低资金成本。4.大数据在政府机关内的应用包括,舆情分析等。其实,在很多领域已经有大数据的雏形。普及商用还需要一定时间。大数据早在20年前就已经提出。重要的是一种大数据思维模式。
商业上。比如电子商务里的亚马逊,视频行业的Netflix等国家治理上的各种数据分析,比如gdp、gnp、cpi、ppi、pmi、m1、m2、Inflation Rate、恩格尔系数、人口统计等等金融上的风险管理,比如阿里金融、做得不错的p2p代表等。总之,大数据要求要有海量数据的设计、收集、分析、结论以及取得相应的趋势或对策的过程。
大数据是除了云计算之外被吹的最厉害的概念了。但是宇宙是离散的。过去不能预测未来。大数据事实上没有多大用处。牛顿爱因斯坦认为宇宙可以用经典物理学的方式最终计算出其规律,但是实际上是错误的。宇宙是量子式的,一粒光子进入太阳系,这个太阳系都会受到影响,实际上是无法计算的。所以,不要在大数据上花费太多功夫,它远远没有现在炒作的影响力那么大的价值。
天气预报!上至政府决策,下到平民百姓,都用得着。而且气象界都玩大数据上百年了,预报正确率比这些金融以及什么用户行为预测高不知道多少倍。不然你以为天河这种大型机都是谁用啊。主要是气象界吹牛逼能力太低,也不见什么人写本书来吹下,例如《大数据:我们都玩上百年了你们才开始》这种书,哈哈!
《疑犯追踪》。大数据应用之一
各位,可以先在知乎搜索一下再来提问&答题么? 推荐这一问题下
的回答,分类很全面,结构很清晰,值得一看。
智慧城市。1 大数据能否告诉我城市哪里最凉快?2 大数据能否告诉我城市哪里犯罪率最高?3 大数据能否治理城市交通拥堵之困境?4 大数据能否真正反应每个人对城市空间的需求特征?5 大数据能否预测城市的发展方向和模式?6 大数据能否让我们获取比传统统计数据更准确真实的数据?7 大数据能帮我做规划方案么,堵住甲方和领导没玩没了的修改意见?8 大数据能否告诉我城市中人流量最大的地方在哪?9 大数据能否告诉我城市哪里人口密度最高?10 大数据能否告诉我城市哪个地段人流量最大?11 大数据能否告诉我城市哪个角落去的人最少?12 大数据能否告诉我垃圾桶如何分布才能不让垃圾落地?13 大数据能否告诉我城市夜晚哪里最亮?14 大数据能否告诉我城市哪里人们的活动强度最大?15 大数据能否告诉我苹果手机和安卓手机用户都分布在哪里?16 大数据能否告诉我春节人口大迁徙的轨迹与特征?17 大数据能否告诉我城市哪里空气质量最好?18 大数据能否告诉城市哪里房租最便宜环境又好?19 大数据能否告诉我城市哪里美女最多?20 大数据能否帮我找到匹配我的女朋友?21 2014年世界杯马上开始了,大数据能像上届世界杯的“章鱼帝”一样分析出每场比赛哪只球队获胜么?22 大数据能否帮我减肥?23 大数据能否告诉我今年五一去哪玩人最少?24 大数据能否告诉我今年国庆哪条出行路线最通畅?25 大数据能否帮我找到最好吃的火锅店在哪?26 大数据能否告诉我是否需要开始预防流感了?27 大数据能否帮助我发现适合运动的户外场所?28 大数据能否帮助我选择最快最不堵车的交通路径?29 大数据能否帮我找到我丢失的狗狗?30 大数据能否让孩子不再被偷?
来吧,通俗易懂。疑犯追踪看过没?三季六十多集,John不厌其烦的打架打架打架…救人救人救人…Finch坐在电脑前面负责提供号码,然后逗一逗bear~好吧,主要是提供并分析号码。他们的无关号码以及国安局的相关号码都是怎么来的呢?没错,就是大数据。纽约街头不计其数的摄像头,所有人的通话录音,上网记录、银行记录、犯罪记录,总之就是千千万万的点,拼出来这个人的面,以及他接下来要走的线,machine都可以预测出来。像这样或者这样或者这样除非你能避开所有的监控,不用手机(防止被定位),不上网或者上网不留私人信息,销毁一切档案,不然就只能被大数据分析~除非你能避开所有的监控,不用手机(防止被定位),不上网或者上网不留私人信息,销毁一切档案,不然就只能被大数据分析~
这个看看淘宝就知道了,淘宝每天产生海量的数据,依靠大数据技术挖掘有用的信息卖给卖家以及其它有兴趣的第三方
1、首先谷歌运用上亿的搜索词条预测流感的发生就是大数据的一个典型应用;2、再者有网上的象棋游戏,也是基于事先输入系统的大量的各种可能的走法,系统才能在短时间
内根据你的走法作出最好的应对措施;3、再者有乔布斯的癌症治疗,是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人,付出高
费用得到了包括整个基因密码的数据文档,他笑言:“我要么是第一个通过这种方式战胜癌症的
人,要么就是最后一个因为这种方式死于癌症的人”,虽然他的愿望都没有实现,但是这种获得所
有数据而不仅是样本的方法还是将他的生命延长了好几年;4、Lytro相机,它把大数据运用到了基本的摄影中,Lytro相机可以记录整个光场里所有的光,达到
1100万束之多,用户没必要一开始就聚焦,可以在拍摄之后根据需要再选择聚焦图像中的任一点5、谷歌翻译系统,拥有上万亿的语料库,涵盖了60多种语言,能够接受十几种语言的语音输入,并有很流利的对等翻译。。。大数据时代已经崛起,世界的本质就是数据,大数据时代的经济学、政治学、社会学等许多学科都会发生巨大的本质上的革新和发展,将会影响人类的价值体系,知识体系,以及生活的方方面面
运用大数据对小微企业进行信用评级,进而提供贷款。之前类似问题说过这个美国的公司:Kabbage 这个是美国一个比较成功的运用大数据为小微企业提供贷款的金融服务公司。是不是有点像阿里小贷(它是2009年成立,跟阿里小贷是一个时期啊)我是搬运工,来自维基:Kabbage, Inc. is an online financing corporation based in Atlanta, Georgia that provides working capitalto small businesses. Kabbage uses data from business checking accounts, accounting software, payment processors, UPS shipping data, and other online tools including large ecommerce sites like eBay, Amazon,Etsy, Shopify, and the Yahoo! Store to reach small businesses looking for capital. Kabbage has tens of thousands of customers, 80 percent of which are repeat users.如何对小微企业进行信用评级其实一直是银行进行相关业务的难点。大数据总归为这方面提供了一个思路,虽然还是很像供应链金融。
大数据已经是时代的必然趋势,很多行业都在走向“大数据”,与生活密切相关的像:GPS地图导航。

我要回帖

更多关于 新浪nba直播删除 的文章

 

随机推荐