什么专业可以参加阿里天池大数据竞赛比赛

当前位置:
我院学生参加2016阿里天池大数据竞赛并取得优异成绩发布日期:访问次数:
]9月21日&10月23日,由我院灾害信息工程系王茂发老师指导、学生史鹏飞(研究生)、陈蕾、宋敏娟、韩定良、王育新、张一博(吉林大学研究生)组成的两支队伍在2016阿里天池大数据竞赛(广东机场数据实时预测赛事)中突破重围,在40个国家近3046支队伍中取得优异成绩,初赛最终排名分别为235及261名,是我院参加该项国际竞赛以来取得的最好成绩,提高了我院的知名度,与第一名的算法实测误差在%范围内。
本次大赛以广州白云机场真实的客流数据为基础,通过分析白云机场WiFi数据和安检登机值机数据来构建客流量预测模型,实现对机场航站楼客流量的准确预测。阿里集团投入60万作为奖金,分初赛和复赛,初赛最终排名前200名会被邀请进入复赛名单,最终该赛题吸引了40个国家近3046支队伍的参加。刚刚接获阿里通知,鉴于我院学生算法的高效性,陈蕾、宋敏娟、张一博一组可能会被破格邀请参加复赛。
阿里天池杯大数据竞赛是国际知名的开放式大数据竞赛。每个赛季都会吸引众多国际知名高校的博士、硕士研究生参赛,竞争异常残酷。每个赛季阿里集团及外众多互联网公司都会投入数以百万计的奖金。竞赛取得的科研成果会被淘宝等知名公司实际应用,优秀的参赛学生有机会被阿里集团直接录用。中国领先的IT技术网站
51CTO旗下网站
阿里巴巴为何要做天池大数据竞赛?
阿里巴巴副总裁涂子沛表示,阿里巴巴在做天池大数据的初衷,就是推动大数据的生态系统形成,推动数据新生代人才的培养和产生,让全世界认识到大数据时代不是空话,是实实在在可以产出有效益的事情。
作者:鸢玮来源:51cto| 16:20
天池大数据竞赛近日在杭州举行决赛答辩,看到选手们一个个都还很稚嫩时,不得不承认,青年的创造力和实力不是我们能想象的到的。
在移动推荐算法赛题中,选手们需要根据用户在移动端的行为,预测用户对某些商品可能的购买情况。最终,来自南京理工大学钱肃驰、彭甫槠、李翔组成的&SecRWeaPon&团队获得了冠军。
在对余额宝资金流入流出的预测中,赛题提供了部分余额宝用户在过去13个月的申购赎回数据,要求参赛选手预测未来1个月每天的申购赎回量。来自哈尔滨工业大学蔡鹏、浙江大学的刘勋、南京大学刘伙玉组成的&三只熊&获得了资金流入流出算法比赛冠军。
让我们先来看看这次天池大数据竞赛的一系列数字吧!
1、覆盖了全球36个国家和地区
2、有14054支队伍报名参赛
3、报名人数达21553人
4、覆盖680所大陆及港澳台高校
5、覆盖367所海外学校
6、最高奖金达30万
7、开放了58亿条数据,创下中国商业机构迄今为止单次开放数据的记录
阿里巴巴副总裁涂子沛表示,阿里巴巴在做天池大数据的初衷,就是推动大数据的生态系统形成,推动数据新生代人才的培养和产生,让全世界认识到大数据时代不是空话,是实实在在可以产出有效益的事情。
竞赛的四大亮点
在IT业界,无论是传统厂商还是互联网厂商,都在举办着各种大赛、竞赛,吸引不同的人群关注、参与。而阿里巴巴的天池大数据竞赛又有哪些不同呢?涂子沛认为,天池大数据竞赛有四大亮点。
1、天池大数据竞赛是万众创新的载体。如今是大众创业、万众创新的时代。阿里巴巴开展的天池大数据竞赛将数据开放,解决实际的业务问题,让不可能的事情变为可能。例如,上一届天池大数据竞赛的主题主要围绕贵州省交通方面,开发智能红绿灯系统。由于政府的资源有限,无法自己完成,因此和阿里巴巴合作,开放贵州省的交通数据,放在天池平台上,帮助政府解决交通问题。
2、开放数据和资源。大数据时代,不只是BAT三家公司的事情。阿里巴巴希望大数据真正的在中国落地,形成生态系统,不仅仅是商业机构的事情,而是大众的事情。因此,阿里巴巴提供天池大数据平台,将数据开放。
3、众智众包的平台。今天的阿里巴巴不仅是想改变中国,甚至是影响世界改变世界。此次天池大数据竞赛推出了国际版网站,让更多的全球高校师生可以参与,通过大赛来调动全世界的资源。涂子沛认为,天池大数据竞赛是开放式创新,阿里巴巴希望将天池大数据平台打造成众智众包的平台。
4、开放的不仅是数据,还有工具和能力。此次阿里巴巴举办的天池大数据竞赛不同于其他大赛,开放了多达58亿条商业机构的数据,并且进行了脱敏处理,还开放了很多免费的工具,毕竟没有工具是处理不了海量的数据。
开放式创新
在对涂子沛的采访中,他提到最多的就是开放式创新,此次天池大数据竞赛,阿里巴巴不仅是开放了自己的商业数据,还开放了大数据的工具和能力,让更多高校师生可以将理论变为实践。
涂子沛表示,我们将真实世界的问题拿出来,放到天池大数据平台中,允许外部的力量来挑战阿里巴巴内部,然后吸取最好的解决方案,这就是创新,阿里巴巴正是这样一家开放式的公司。
阿里巴巴的开放式创新,不仅是依靠自己公司的力量来解决实际业务问题,还依靠社会的力量来解决难题,充分发挥了互联网和云计算的力量。在去年的&天猫推荐算法大赛&中,6名90后大学生研发的个性化推荐算法,在&双11&当天的实战效果超过天猫原有算法的16.9%。
涂子沛表示,&我们不仅仅是影响中国,我们要影响世界改变世界,这是今天我们天池平台的一个雄心,这就是我们走向国际化的原因。&
构建大数据生态系统
除了开放式创新,阿里巴巴举办天池大数据竞赛的目的,还希望推动大数据生态的形成,推动数据新生代人才的培养和产生,让全世界认识到今天的大数据时代不是一个空话,是实实在在可以有产出有效益的事情。
涂子沛认为,一个好的生态,应该是整个社会的每一个部分都要参与其中的,包括个人、组织、商业机构以及政府。阿里巴巴作为商业机构,将自己的能动性发挥到最大,通过大数据竞赛推动大家的意识,一方面推动人才的培养,同时普及数据的意识,也提高了大众的隐私意识。
开放数据是全世界的浪潮,不仅是公关部门,还有商业部门,并且需要有人引领。涂子沛认为,在金融大时代,未来社会数据将成为每个人的权利,数据的使用、编辑、开放、挖掘都表现为数据的权利,数据在个人、政府以及商业机构之间的流动、管理,是需要有一个健全的机制来规范的,而这个引领者可以是任何人。
如今,我们的社会充满了各种类型的数据,并且分散在不同的政府公共机构以及商业公司中,然而,这些数据如何打通,真正为民生和社会服务,是需要引领者的。但是,数据的开放、打通不是一件简单的事情,需要商业机构的开放,需要政府的立法,从而保证我们的数据隐私,并且还可以通过数据来提供更精准的服务。真正全社会的大数据分析,需要各方的力量来共同完成!
【责任编辑: TEL:(010)】
大家都在看猜你喜欢
热点热点头条头条头条
24H热文一周话题本月最赞
讲师:64人学习过
讲师:11人学习过
讲师:4人学习过
精选博文论坛热帖下载排行
本书从基础知识入手,详细讨论了Oracle数据库的创建、OEM及iSQL*Plus等工具的使用、Oracle的字符集知识、用户的创建与管理、表空间和数据文...
订阅51CTO邮刊&|&&|&&|&&|&&
当前位置: >
天池大数据竞赛(离线赛与平台赛)
作者:Dr_Guo & 来源:转载 &
摘要: 竞赛题目(离线赛与平台赛题目一样,只是数据量不一样,离线1000w+条数据,平台11亿+条数据)在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。定义如下的符号:U——用户集合I——商品全集P——商品子集,P ? ID——用户对商品全集的行为数据集合那么我们的目标是利用
竞赛题目 (离线赛与平台赛题目一样,只是数据量不一样,离线1000w+条数据,平台11亿+条数据)
在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。定义如下的符号: U——用户集合 I——商品全集 P——商品子集,P&?&I D——用户对商品全集的行为数据集合 那么我们的目标是利用D来构造U中用户对P中商品的推荐模型。
数据说明 本场比赛提供20000用户的完整行为数据以及百万级的商品信息。竞赛数据包含两个部分。
第一部分是用户在商品全集上的移动端行为数据(D),表名为tianchi_fresh_comp_train_user_2w,包含如下字段:
&抽样&字段脱敏
&behavior_type&
&用户对商品的行为类型
&包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4。
&user_geohash
&用户位置的空间标识,可以为空
&由经纬度通过保密的算法生成
item_category
商品分类标识
精确到小时级别
第二个部分是商品子集(P),表名为tianchi_fresh_comp_train_item_2w,包含如下字段:&
&抽样&字段脱敏
&item_ geohash
&商品位置的空间标识,可以为空
&由经纬度通过保密的算法生成
&item_category&
&商品分类标识
训练数据包含了抽样出来的一定量用户在一个月时间(11.18~12.18)之内的移动端行为数据(D),评分数据是这些用户在这个一个月之后的一天(12.19)对商品子集(P)的购买数据。参赛者要使用训练数据建立推荐模型,并输出用户在接下来一天对商品子集购买行为的预测结果。 有了新想法我先在离线赛上实验,成绩有提升我才去平台赛,不过也遇到一些问题,在hive里运行一点问题没有的SQL语句,到了ODPS里就不能用,有很多限制,毕竟数据量大了好几个数量级,处理起来很费资源,不能那么随意的写了。
刚开始想的比较幼稚,F1值极低,成绩自然也不好(152/2292)
开始的想法奉上~
hive& create external table tclx(uid string,goodsid string,behtype string,space string,category string,time string)
hive& row format delimited fields terminated by ','
hive& location '/tianchilx';
hive& create table tianchi as select uid,goodsid,behtype,space,category,unix_timestamp(time,'yyyy-MM-dd HH')
#改列名,不用了
hive& alter table tianchi change `_c5`
hive& create table tct1 as select distinct uid from tianchi where behtype = 3 and time & ;
hive& create table tct2 as select t.* from tianchi t,tct1 c where t.uid=c.
hive& select * from tct2 limit 5;#查看表的前五行
hive& create table tct3 as select distinct uid from tct2 where behtype=4;
hive& create table tct4 as select t.* from tct2 t,tct3 c where t.uid=c.#前面做的这些是为了将tct2表中30天都没买东西的人剔除
用全外连接直接建表,不用再建个表放uid了
hive& create table tct6 as select c.* from (select distinct uid from tct2 where behtype=4)t,tct2 c where t.uid=c.
或者,更直接一点
hive& create table tct7 as select c.* from
(select distinct uid from (select a.* from tianchi a,(select distinct uid from tianchi
where behtype=3 and time&) b
where a.uid=b.uid)t
where t.behtype=4)t,tct2 c
where t.uid=c.uid
或者,改进一点,用in
hive& create table tct8 as select c.* from
(select distinct uid from (select a.* from tianchi a where a.uid in (select distinct uid from tianchi
where behtype=3 and time&))b
where b.behtype=4)t,tct2 c
where t.uid=c.
再改进一点
hive& create table tct9 as select c.* from tct2 c
where c.uid in (select distinct uid from (select a.* from tianchi a where a.uid in (select distinct uid from tianchi
where behtype=3 and time&))b
where b.behtype=4);
后面的就不写了,保密~
刚开始想的比较幼稚,F1值极低,成绩自然也不好(122/1398)
--odps sql
--********************************************************************--
--author:断线纸鸢自由
--create time: 15:12:09
--********************************************************************
describe tianchi_data.tianchi_fresh_comp_train_user_
Create table tianchi_fresh_comp_train_item as
select * from tianchi_data.tianchi_fresh_comp_train_item_
Create table tianchi_fresh_comp_train_user as
select * from tianchi_data.tianchi_fresh_comp_train_user_
drop table if exists tianchi_mobile_recommendation_
create table tianchi_mobile_recommendation_predict&
& & select&
& & & & user_id
& & & & ,item_id
& & & & & & select&
& & & & & & & & user_id
& & & & & & & & ,item_id
& & & & & & & & ,row_number() over(partition by user_id order by num desc) as rank
& & & & & & from
& & & & & & & & (
& & & & & & & & select&
& & & & & & & & & & a.user_id
& & & & & & & & & & ,a.item_id
& & & & & & & & & & ,a.num
& & & & & & & & from
& & & & & & & & & & (
& & & & & & & & & & select&
& & & & & & & & & & & & user_id
& & & & & & & & & & & & ,item_id
& & & & & & & & & & & & ,count(1) as num
& & & & & & & & & & from&
& & & & & & & & & & & & tianchi_fresh_comp_train_user
& & & & & & & & & & where&
& & & & & & & & & & & & substr(time, 1, 10)=''&
& & & & & & & & & & & & and behavior_type=3
& & & & & & & & & & group by&
& & & & & & & & & & & & user_id
& & & & & & & & & & & & ,item_id
& & & & & & & & & & ) a
& & & & & & & & & & join
& & & & & & & & & & (
& & & & & & & & & & select distinct&
& & & & & & & & & & & & item_id
& & & & & & & & & & from&
& & & & & & & & & & & & tianchi_fresh_comp_train_item
& & & & & & & & & & ) b
& & & & & & & & & & on a.item_id = b.item_id
& & & & & & & & where&
& & & & & & & & & & b.item_id is not null
& & & & & & & & ) c
& & & & ) d
where rank&=1;
count tianchi_mobile_recommendation_
准确率、召回率、F1
信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,概念公式:
& & & & & & &召回率(Recall)&&&&& =& 系统检索到的相关文件 / 系统所有相关的文件总数
&&&&&&&&&&&& 准确率(Precision) = &系统检索到的相关文件 / 系统所有检索到的文件总数
图示表示如下:
注意:准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了。一般情况,用不同的阀值,统计出一组不同阀值下的精确率和召回率,如下图:
如果是做搜索,那就是保证召回的情况下提升准确率;如果做疾病监测、反垃圾,则是保准确率的条件下,提升召回。
所以,在两者都要求高的情况下,可以用F1来衡量。
[python]& view plain copy
公式基本上就是这样,但是如何算图1中的A、B、C、D呢?这需要人工标注,人工标注数据需要较多时间且枯燥,如果仅仅是做实验可以用用现成的语料。当然,还有一个办法,找个一个比较成熟的算法作为基准,用该算法的结果作为样本来进行比照,这个方法也有点问题,如果有现成的很好的算法,就不用再研究了。 原文地址:http://blog.csdn.net/wangzhiqing3/article/details/9058523
版权所有 IT知识库 CopyRight (C)
, All Rights Reserved.阿里巴巴天池大数据竞赛,百万大奖寻找数据英雄
&为了推动数据人才的培养,开启数据和计算潜能储备力量,2014年,阿里巴巴集团推出天池大数据科研平台,让无法接触到大数据的人,能够触碰到企业级的大数据,是我们的使命。
2015,天池大数据竞赛共吸引到全球超过40个国家和地区,<span lang="EN-US" style="font-size:10.5font-family:&微软雅黑&,&sans-serif&;color:#FF支队伍,<span lang="EN-US" style="font-size:10.5font-family:&微软雅黑&,&sans-serif&;color:#FF位选手报名参赛。
2016,天池大赛推出&数字娱乐、互联网物流、O2O等热门领域&算法竞赛,并将拓宽领域边界,涵盖&数据可视化&和&程序设计&大赛,不一样的赛题,期待一样牛的你!
开启大数据之旅:
2016天池赛事直击
2016天池大数据竞赛,我们有针对刚刚进入数据挖掘领域的新人而定制的新人实战赛;有老选手最爱:经典但又有所创新的算法大赛;有和顶级国际会议合作的高端赛事;还有面向全新领域的可视化大赛、编程设计大赛&&
了解详情:
&&&&&&&& 菜鸟-需求预测与分仓规划大赛 &&&&&&&&
竞赛时间:4月18日-6月19日
奖金池:33万元
激励:天池高端定制礼品、阿里校招绿色通道、人才认证
大数据赋能电商仓配网络
1、供应链物流领域的全新&互联网+&挑战;
2&、海量商业数据(买家购物行为等)在DT时代的算法应用实践;
3&、近距离接触互联网DT技术对线下传统物流流程的促进和改造。
&&&&&&&& 阿里音乐流行趋势预测大赛 &&&&&&&&
竞赛时间:5月17日-7月15日
奖金池:38万元
激励:天池高端定制礼品、阿里校招绿色通道、人才认证
下一个当红艺人是who?不看颜值看数据!
经过7年的发展与沉淀,目前阿里音乐拥有数百万的曲库资源,及数亿的人次的用户试听、收藏等行为。本次大赛以阿里音乐用户的历史播放数据为基础,期望参赛者可以通过对阿里音乐平台上每个阶段艺人的试听量的预测,挖掘出即将成为潮流的艺人,从而实现对一个时间段内音乐流行趋势的准确把控。
&&&&&&&& 天池新人实战赛 &&&&&&&&
竞赛时间:长期开放,提供永久排行榜
激励:天池高端定制礼品&人才认证
天池新人实战赛是针对数据新人开设的实战练习专场,以经典赛题作为学习场景,提供详尽入门教程,手把手教你学习数据挖掘。天池希望新人赛能成为高校备受热捧的数据实战课程,帮助更多学生掌握数据技能。
&&&&&&&& 更多比赛详情请见天池官网 &&&&&&&&
发布:孟晓辉&|&
审核:李岳&|&
关联阅读>>
最新发布&|&

我要回帖

更多关于 阿里天池大数据 的文章

 

随机推荐