你好，请问林轩田的learning from data数据恢复那本书好的pdf你有么？如能提供，不胜感激

篮球鞋 | 电子竞技 | 梅西(lionelmessi) | 自行车运动 | 日本文化 | 机械 | 德国足球甲级联赛 | 宠物医生 | 中国足球 | 用户界面设计师 | 滑雪 | 自行车选购 | acg | 高考志愿 | 国家队 | 汽车购买 | 运动损伤 | 欧美明星 | 设计 | 大数据 | 肖战 | 中药 | 哲学 | 直播 | 3D | 电视节目 | 理科 | 欧洲 | NBA 2K | 拜仁慕尼黑足球俱乐部 | ps4 | 捷安特 | 大学专业 | 巴塞罗那足球俱乐部 | 香港购物 | 玄幻小说 | 跑鞋 | pmp | 欧洲冠军联赛 | 土拨鼠 | aj1 | 牙齿 | 尤文图斯 | 女同性恋 | 天气 | 口臭 | 足球鞋 | 户外运动 | 少帅 | 亲子鉴定 | 配音 | 角色扮演 | 手机游戏 | 旅游线路 | 郭德纲 | 旅游推荐 | 梦想改造家 | 中学 | 北京国安 | ISIS（伊斯兰国） | 一级方程式赛车（f1） | iPhone | 拼多多 | 户外 | 罗兰 | 中国 | 电源 | 金蝶 | 百度知道 | 用户界面设计 | 女排 | 城市 | 电脑 | QQ音乐 | 复仇者联盟（电影） | 室内设计 | 政府 | 人生 | 三国杀 | 韩国旅游 | 微博 | 有机化学 | 我的世界（minecraft） | 鉴定 | 汽车维修 | 戚继光 | 古汉语 | akb48 | 科幻小说 | 建筑设计 | 梵蒂冈 | 张帅 | 完美世界（游戏） | 电吉他 | 北京 | 眼镜 | 昆山 | 美容护肤 | 足球规则 | 多肉植物 | 荷兰 | macos | 昌平区 | 对联 | 曼彻斯特联 | 南京 | 实况足球（游戏） | 鹿晗 | 新闻 | 西藏大学 | 貂蝉 | 湖北 | 网易 | 借记卡 | 剧场版 | 安踏体育 | 网球王子 | 住宅风水 | 汉语 | 广播体操 | 营销策划 | 用户界面 | 武侠小说 | 汽车改装 | 张璐 | 高三 | 海军工程大学 | 诗歌 | 富平县 | 盗墓笔记（小说） | 高速公路 | 青年旅舍 | 离婚 | 相声演员 | 阿迪达斯(adidas) | 中国足球协会超级联赛（csl） | 烹饪学校 | 婚纱照 | 发烧 | 流星花园 | 动车 | 赚钱 | 爱奇艺 | 铜陵市 | 澳大利亚 | 头发 | 环境保护 | 跑步爱好者 | 后宫·甄嬛传（书籍） | 书法 | #全民答题# | 阿迪达斯 | 外星人 | 象棋 | 牛皮癣 | 动画电影 | 眼睛 | 平面设计 | 运动会 | adidas阿迪达斯 | 诸葛亮 | 云南旅游 | 巴黎 | 少数民族 | 云南 | 小品 | 跑步鞋 | 性价比 | 减脂 | 巴西 | 葡萄酒 | 非洲 | 考研 | 美容 | 张继科 | 挖掘机 | 红酒 | 淘宝网 | 战斗机 | 郭富城 | 曼彻斯特联（Manchester United） | 音乐剧 | 年会 | 易烊千玺 | 骨折 | 传统武术 | 模特 | 平板电脑 | 家用电器 | 华为手机 | 双眼皮手术 | 钢笔 | 娱乐圈 | 游泳馆 | 腾讯产品 | 法国足球甲级联赛 | 趣味 | 身高 | 日语歌曲 | 支付宝 |

你的位置：网站首页 >> 频道首页 >>资源共享 >>你好，请问林轩田的learning from data数据恢复那本书好的pdf你有么？如能提供，不胜感激

你好，请问林轩田的learning from data数据恢复那本书好的pdf你有么？如能提供，不胜感激

来源：蜘蛛抓取(WebSpider) 时间：2015-06-08 23:43 标签：寒战最后那本书

数据挖掘、机器学习、自然语言处理这三者是什么关系？这几个怎么入门啊？国内到底是阿里还是百度大数据最好？
本人菜鸟一枚，本科学机器学习、数据挖掘、自然语言处理零基础，目前正在学统计学习方法，由于英语比较差，吴恩达的课听不下去，所以有点无从下手，希望有经验的大牛们给指点迷津，指导下这些怎么学习。ps:本人对算法和数据分析比较感兴趣，机器学习、数据挖掘、自然语言处理哪一个更适合？这三个哪一个更有发展潜力？
按投票排序
题主的问题太多了，每个展开都可以讲很多~作为自然语言处理（NLP）方向的研究生，我来回答一下题主关于自然语言处理如何入门的问题吧，最后再YY一下自然语言处理的前途~有点话我想说在前头：不管学什么东西，都要跟大牛去学，真正的大牛可以把一件事解释的清清楚楚。If you can't explain it simply, you don't understand it well enough.跟大牛学东西，你不会觉得难，一切都觉得很自然，顺利成章的就掌握了整套的知识。不过很遗憾，大牛毕竟是少数，愿意教别人的大牛更少，所以如果遇到，就不要强求语言了吧~开始进入正题，我将介绍如何从零基础入门到基本达到NLP前沿：----------NLP零基础入门----------首推资料以及唯一的资料：Columbia University, Micheal Collins教授的自然语言课程链接&& Michael Collins，绝对的大牛，我心目中的偶像，这门课是我见过讲NLP最最最清楚的！尤其是他的讲义！Collins的讲义，没有跳步，每一步逻辑都无比自然，所有的缩写在第一次出现时都有全拼，公式角标是我见过的最顺眼的（不像有的论文公式角标反人类啊），而且公式角标完全正确（太多论文的公式角标有这样那样的错标，这种时候真是坑死人了，读个论文跟破译密码似的），而且几乎不涉及矩阵表示……（初学者可能不习惯矩阵表示吧）。最关键的是，Collins的语言措辞真是超级顺畅，没有长难句，没有装逼句，没有语法错误以及偏难怪的表示（学术圈大都是死理工科宅，语文能这么好真实太难得了）。《数学之美》的作者吴军博士在书中评价Collins的博士论文语言如小说般流畅，其写作功底可见一般。举两个例子，如果有时间，不妨亲自体验下，静下心来读一读，我相信即使是零基础的人也是能感受到大师的魅力的。1.语言模型（Language Model）2.隐马尔可夫模型与序列标注问题(Tagging Problems and Hidden Markov Models)现在Michael Collins在coursera上也开了公开课，视频免费看链接&& 比看讲义更清晰，虽然没有字幕，但是不妨一试，因为讲的真的好清楚。其在句法分析与机器翻译部分的讲解是绝对的经典。如果能把Collins的课跟下来，讲义看下来，那么你已经掌握了NLP的主要技术与现状了。应该可以看懂部分论文了，你已经入门了。----------NLP进阶----------Collins的NLP课程虽然讲的清晰，不过有些比较重要的前沿的内容没有涉及（应该是为了突出重点做了取舍），比如语言模型的KN平滑算法等。此外，Collins的课程更注重于NLP所依赖的基础算法，而对于这些算法的某些重要应用并没涉及，比如虽然讲了序列标注的算法隐马尔可夫模型，条件随机场模型，最大熵模型，但是并没有讲如何用这些算法来做命名实体识别、语义标注等。Stanford NLP组在coursera的这个课程很好的对Collins的课进行了补充。链接&& 本课程偏算法的应用，算法的实现过的很快，不过上完Collins的课后再上感觉刚刚好~（这两门课是Coursera上仅有的两门NLP课，不得不佩服Coursera上的课都是精品啊！）----------进阶前沿----------上完以上两个课后，NLP的主要技术与实现细节就应该都清楚了，离前沿已经很近了，读论文已经没问题了。想要继续进阶前沿，就要读论文了。NLP比起其它领域的一个最大的好处，此时就显现出来了，NLP领域的所有国际会议期刊论文都是可以免费下载的！而且有专人整理维护，每篇论文的bibtex也是相当清晰详细。链接&& 你可以挑自己感兴趣的领域，读一读近几年的论文，对感兴趣的作者跟踪一下他近几年的工作，这就不再多说了~只提一点，目前NLP领域最顶级的会议是ACL，中稿率只有20%左右，能中一篇那是相当值得炫耀的事，所以ACL论文的质量大部分也都很不错（当然哪里都有灌水的），读一读多少会有收获的。-------------------------最后简单谈一下哪个更有发展潜力……作为一个NLP领域的研究生，当然要说NLP领域有潜力啦！这里YY几个未来可能会热门的NLP的应用：语法纠错目前文档编辑器（比如Word）只能做单词拼写错误识别，语法级别的错误还无能为力。现在学术领域最好的语法纠错系统的正确率已经可以接近50%了，部分细分错误可以做到80%以上，转化成产品的话很有吸引力吧~无论是增强文档编辑器的功能还是作为教学软件更正英语学习者的写作错误。结构化信息抽取输入一篇文章，输出的是产品名、售价，或者活动名、时间、地点等结构化的信息。NLP相关的研究很多，不过产品目前看并不多，我也不是研究这个的，不知瓶颈在哪儿。不过想象未来互联网信息大量的结构化、语义化，那时的搜索效率绝对比现在翻番啊~语义理解这个目前做的并不好，但已经有siri等一票语音助手了，也有watson这种逆天的专家系统了。继续研究下去，虽然离人工智能还相去甚远，但是离真正好用的智能助手估计也不远了。那时生活方式会再次改变。即使做不到这么玄乎，大大改进搜索体验是肯定能做到的~搜索引擎公司在这方面的投入肯定会是巨大的。机器翻译这个不多说了，目前一直在缓慢进步中~但我们已经能获益，看越南网页，看阿拉伯网页，猜个大概意思没问题了。此外，口语级别的简单句的翻译目前的效果已经很好了，潜在的商业价值也是巨大的。不过……在可预见的近几年，对于各大公司发展更有帮助的估计还是机器学习与数据挖掘，以上我YY的那些目前大都还在实验室里……目前能给公司带来实际价值的更多还是推荐系统、顾客喜好分析、股票走势预测等机器学习与数据挖掘应用~
机器学习比较偏底层，也比较偏理论，机器学习本身不够炫酷，结合了具体的自然语言处理以及数据挖掘的问题才能炫酷。机器学习好像内力一样，是一个武者的基础，而自然语言和数据挖掘的东西都是招式。如果你内功足够深厚，招式对你来说都是小意思。但机器学习同时也要求很高的数学基础，基本上我读到自然语言处理的博士，看机器学习顶会有些论文还是如读天书。而现在如果我们只讲，工程实现，有很多开源工具可以使用，你所需要的只是知道这些工具都是干嘛用的就好~~~我不知道为什么，很多中国本科生对机器学习特别特别特别的狂热，但对矩阵，概率论又有着老纸早他妈不想念这门课了，终于过了的思想。我一直觉得，如果你真的矩阵，概率，微积分学的不好，早日勤动手，多编程，对日后找工作很有利！！！这三不管你学啥，一定不要舍本逐末的放弃了程序员最基础的编程功夫。最后：人工智能就是有多少人工就有多少智能。不要被百度，谷歌等吹牛逼的软文迷惑了双眼。。。我希望每个本科生：会一门脚本语言，熟悉java，了解c++ == 。。。
自己动手做过一个完整的网站，一个完整的移动App。上个OJ，AC上百题~~~
数学之类的不读博士没知乎上吹的这么重要。好好努力，勤动手，还有希望你学好英语，早日放弃百度知道，投奔stackoverflow，这样一定是你挑百度或者阿里~~
talk is cheap，show me the code你的问题在于，读的书不多，想得却太多＝＝发现这些热语都可以评论这个问题。。。数据挖掘相对简单。吴恩达的课已经很简单了，本科低年级的学生都可以完成。看3遍统计学习方法，然后把所有算法实现。ok，然后你再来问，自己是去百度，还是阿里。
先去国内前20，米国前100的学校混一个数学/统计/计算机，并且和数据相关的学位在说吧机器学习的职位，目前供需严重不平衡。很多人调过一两个库的几个算法就堂而皇之的把机器学习加到简历里面去了，滥竽充数的现象很严重。所以对于新人来说，没有学历基本上就是被秒刷的命。
我把题目脑补成了挖掘机、编程。。。
一点小建议：作为一个业内人士，首先我的建议就是放弃“我的英语比较差”这个想法。作为母语非英语的所有人都不是天生英语就比较好的。程序员还好，题主所说的3门学问，如果不能熟练的阅读英文材料，将寸步难行。如果有强烈的兴趣甚至要考虑出国读书。下面就题主问的三项来解答：“机器学习、数据挖掘、自然语言”首先要认识到这三项并不是独立的选项，机器学习需要数据挖掘和自然语处理的支撑，自然语处理需要数据挖掘的支撑，数据挖掘需要大数据的支撑。最终所有的根源都要落实在大数据上，而这一切的顶点就是人工智能。从这个层面上来看数据挖掘是比较基础的部分，目前也有比较成熟的解决方案，只要你有数据不愁找不到工具。各种数据库（mongodb，Hive，Pig，HBase，RedShift），分布式系统（Hadoop， Spark），编程语言（Python和R）都是为其开发的或者擅长处理大数据。所谓学习数据挖掘已经逐渐变成熟练掌握这些工具的过程了。当然如果有兴趣，也可以参与各种分布式系统的开发，不过基本上你能想到的所有好用的算法，前人都已经写好了集成进去了。自然语处理，在这个世界上除了谷歌，苹果，微软，IBM还没有其他能够挑战此领域并且获得受人瞩目的成就的公司。因为现在自然语处理就是方法很落后，手段很暴力。基本上常用的技术在10几20年前就出现了，只不过那时候没有谁拥有上万台计算机来处理自然语，现在倒是有了。可离实用还有很长的路要走（可以看一下IBM的沃特森，基本上也就代表现阶段最强的自然语处理的水平了）。最后就是机器学习了，这一点除了我之外已经有很多人强调过了——“机器学习只是被过度神话了！”。说白了现在的机器学习技术就是“战五渣”，谁上谁后悔。目前除了以“深度学习”为代表的人工神经网络之外其他的大部分常用的学习方法都是统计学习。不仅要喂足了料，还要精心调教，还不一定出货，出了也基本上不准。如果恰好结果符合预期，只能说“运气真好”。不过也正是因为这样，机器学习才作为一项前沿学科，很多科学家去研究，据我目测，这一波深度学习热应该已经过去了吧。按这个节奏，不知道10年之后又会有什么技术点燃机器学习的热情也说不定。好了吐槽完了，我觉得题主可能先试试数据挖掘看看，挺好玩的～
机器学习是个广义的概念，非常广。用到计算机视觉中，即计算机视觉中的机器学习；用到信号处理中，即信号处理中的机器学习；用到自动控制中，即自动控制中的机器学习；用到自然语言处理中，即自然语言处理中的机器学习。。。
知乎首答，写个短的。本人现在大三，计算机本科。目前在国立台湾大学做交换生。第一个和第三个问题我不懂，坐等大牛回答。我只结合自己的情况说一下第二个问题。NG的课程我以前看过一部分，讲的风格我觉得在干货之前都比较好懂（笑）。但是天朝的学子接受起来可能有困难。台湾大学的林轩田老师的machine learning至少在本科生教育上做的很好。他们有个team经常去各种比赛上刷奖。我目前在修他的机器学习课程，觉得质量不错。现在coursera上也有同步课程。传送门：个人觉得机器学习的很多方法都是从统计学上借鉴过来的，所以现在在补统计学的知识。同时作为一个理论性比较强的领域，线性代数和高等数学的知识起码是要具备的（至少人家用矩阵写个公式再做梯度下降你要看明白是在干嘛）。我在大陆的mentor是做机器翻译的。我说我感觉这个领域现在是步履维艰，结果被我mentor教育了。现在微博数据好像挺好用的，数据抓过来跑一跑能出点票房预测什么的（其实非常吊了，反正我不会QAQ）。记得有本Python自然语言处理，NLTK还自带语料库，用来入门不错。起码要熟悉正则语言，再学个脚本语言。虽然Python已经很好用了，你要不要考虑下linux shell。以后混不下去了可以去给运维打下手。这东西又不是C语言，入门又没什么用，所以没什么30天精通NLP之类。而且自己研究NLP也面临着许多问题。首先你自己没有可研究的问题，没有动力。其次，研究资料也不算好找（虽然好像有免费的）。去年mentor给了我个5M的树库，还嘱咐我说是有版权的，不能给别人。(笑)其实我自己都怀疑读研的时候要不要换个方向（请行里行外的师兄来劝我两句，要不要去做别的啊！！QAQ）最后说一句，机器学习之类我觉得是国内大学所谓计算机专业比较偏向CS而不是CE的部分了。虽然工程性很重要，但是和软件工程什么的比起来Science的成分总要更大一些。我是比较喜欢理学才来学这个东西。当然我的认识可能不对，我姑妄说之。Talk is cheap, 我还是去code吧...
《统计学习方法》是指李航那本？不适合初学者，术语太多，干货满满，在introduction那一章连个例子都舍不得举，简直看不下去（我没说这本书不好，只是不适合初学者，等你学的差不多了以后再来看这本书会有长进的）。Andrew Ng的课指的是什么？网易公开课还是Coursera上的公开课？前者上不下去的话正常。后者比前者压缩掉了很多内容，把长视频切成了短视频，还有作业等互动环节，听不懂可以开字幕。要是这样你都听不下去，要么说明你该学英语了，要么说明你该学数学了：把机器学习的三驾马车——高等数学、线性代数、概率统计——好好补一补吧。我不知道机器学习、数据挖掘、自然语言处理哪一个更有潜力，但我觉得你得先把数学和英语学好才能有潜力。
大数据在没有证明自己改变世界之前，无法说明人工智能的正确方向是大数据。简单来说即便现在的Google 走的方向也很有可能完全错到底了。你看狗粉再瞧不起Apple ，也没法否认Google 的市值被Apple 狠狠踩在脚下。这从侧面反映了Google 现在在人工智能和机器学习领域的成就。我是侯世达理论的支持者。如果是对人工智能方向感兴趣，可以看看GEB如果百度的大数据能准确预言下一个改变世界的方向、技术、公司，它现在的市值绝对不止700亿，保守估计至少是Apple 的几倍。
你好, andrew ng 在 coursera 上的课 Machine Learning
其实相当简单
而且那门课带中文字幕的只要会最基本的矩阵运算规则和微积分就能碾压作业
建议沉下心去看看我觉得你基本找不到比它跟简单的介绍材料, 看不懂就放弃吧. 是的那门课其实根本算不上入门, 只能算介绍...
本人初学者，看法是ML和NLP的比较多的公式方法都和概率统计，线性代数之类的数学知识有关，比如说二者都很重要的马尔可夫假设和贝叶斯公式。而统计上的东西需要大量的训练集作为支撑，也就是需要数据挖掘的地方了。这应该就是三者的关系了。入门的话个人觉得也没有什么捷径可走，就是干。阿里和百度哪个好我不清楚，不过最近我在CIKM（conference of information and knowledge management，二区会议）上听了丁姐夫（Jeff Dean）的关于大规模深度学习的报告，基本上就是把题主提到的三者结合起来说了一下，事后看到阿里的工程师和丁姐夫讨论了一下，表示好像没有看到百度工程师
我以前也跟你差不多心想是Stanford 去读phd还是去CMU读phd，结果后来发现自己想多了
改成数据、挖掘机器学习、自然语言处理就好学了。
机器学习有两个基础非常重要：英语和数学
基本上没有这两个基础寸步难行，而且NG在Coursera上的课可以说是基础的基础了，课后作业等也非常简单，如果这个都看不下去的话，那真的是无缘了，Coursera还有一门台大的《机器学习基石》可以作为NG的课的进阶，其实公开课和书籍只能作为基础，最重要的是看论文看文献。
乍一看以为问挖掘机的
问题太多，先回答最后一个。看百度和阿里的大数据，不能简单的问哪一个好。。。你应该问各在哪一个领域比较好。在BAT三者里，都非常重视大数据的研究。但是所谓大数据研究，首先你得有数据让你研究，并且这个数据量要很大。不然怎么叫大数据呢？？显然，阿里和百度都符合。但是，两者所拥有的数据来自的领域不同，阿里是电商开始，因此在电子商务（购物行为，浏览行为，甚至个人信息）上的数据量很大，百度是搜索引擎起价起家，自然在搜索上获得的数据量（网页，搜索行为之类）很大。所以，阿里拼不过百度的搜索引擎数据，百度也拼不过阿里的电商数据。此外，有了数据，就得看研发平台和技术团队了。大数据既然大了，就不能几台电脑就能搞定，必须是一个大的集群来分析，好的数据仓库来存储。两者都有云，很难说哪个好吧。技术团队也一样，很难比较。百度有Andrew Ng，但是不是加个科学家它家就一定是好一点的。关键还是看有哪个领域的数据，数据量有多大，公司烧多少钱支持搞大数据研究~~
不要纠结哪个更好学了骚年，请好好学习概率论高等数学和线性代数。哦对，还有英语。
NG的课在网易有字幕版，是在斯坦福上课的实拍，比cousera的更深，因为上课的是本科生（没记错的话），比较适合入门。不过数学的底子有要求，特别是线代。话说回来，要做这一行，英语非常重要，楼主你得学英语了，读和听要搞定，最低限度读要没问题。另外，既然数据挖掘都是零基础，先把统计补一补。。。
NG的在Coursera上有中文字幕的，尽管不建议看中文字幕学习:)谁有林轩田的learning from data那本书的pdf？_百度知道
谁有林轩田的learning from data那本书的pdf？
有的请留言我告知邮箱，先15分，如果有的话可以再加分
提问者采纳
已有扫描版,8,9是电子版，6，1-5章在出了书有,7
谢谢，现在已经有了。不过分给你吧
提问者评价
其他类似问题
pdf的相关知识
按默认排序
其他1条回答
国内连书都没有，PDF不好弄
为您推荐：
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁作为某足球游戏的AI程序员我来说两句，我们的AI分四层：&br&&br&最上面是局势和战术，即在不同的比分情况和当前球的位置以及控球球队会触发不同的球队整体状态，大概有一百来种，这一层用状态机实现；&br&&br&第二层是球员个体决策和区域配合，球员根据局部局势，例如对方球员位置/自己与球的距离/控球状态等做出局部决策进行进攻/助攻/防守/配合阻拦/跑位等行为，大概三十几种，这一层用状态机+决策树实现；&br&&br&第三层是球员肢体动作，即球员根据第二层决策，要控制肢体在当前物理状态下切换成跑/走/停/斜跑/扭头/拦人/特别是在靠近球的时候要进行运球/拦截/过人/争球/扑球等肢体决策，这一层是带物理约束的状态机+决策树，需要说明的是这一层的物理约束不是播骨骼动画，而是一个完整的机器人动力学引擎，开源的都是用来做科学研究的不好用基本要自己写，robotics这门学科有些著名基础定理如最小能量法则什么的是这个引擎计算的基础，球员需要用一个简化的肌肉/IK模型来模拟，四肢/身体/头/手脚的碰撞检测可以简单处理成柱体/球体/方体，这一层最麻烦，首先录制踢球单元动作要几百个，而且我们做的时候都不知道到底该录哪些动作，补录了好几次，有些牛逼特技自己做不出来的就只能美术调，人体动力学模型也调优了几个月，主要还是对物理和人体要理解透，动力学引擎也花了几个月；&br&&br&&br&第四层也是最底层是个物理引擎，用来模拟球员/球的运动，这一块开源的havoc什么的就很好了，只是物理引擎有个问题就是毕竟是离散按帧update的，很容易出现碰撞盒子相互穿透死锁/作用力、加速度变成无穷等奇葩情况，特别是刚体之间有复杂的连接和约束关系，所以要对人体模型写大量的代码做约束，但即使是FIFA这样的大作依然会出现球员穿透这种bug。&br&&br&&br&综上所述，实现一个接近主流游戏如FIFA这样级别的足球游戏AI引擎大概需要几个高级算法工程师一年的时间，需要非常扎实的算法和引擎功底。
作为某足球游戏的AI程序员我来说两句，我们的AI分四层：最上面是局势和战术，即在不同的比分情况和当前球的位置以及控球球队会触发不同的球队整体状态，大概有一百来种，这一层用状态机实现；第二层是球员个体决策和区域配合，球员根据局部局势，例如对方球…
发几个我自己的项目，或者说修改而来的项目&br&&br&&b&1、小蝌蚪聊天室&/b&&br&&img src=&/397bbe5ccfba_b.jpg& data-rawwidth=&700& data-rawheight=&525& class=&origin_image zh-lightbox-thumb& width=&700& data-original=&/397bbe5ccfba_r.jpg&&&b&说明：&/b&有人说这个应用很奇葩、很邪恶、简直无底线。我觉得就是一个匿名社交应用嘛。目前还没有卖装备和道具，也没办法进化成青蛙，当然更没有传说中的蛋蛋。但是我总感觉这玩意儿有广阔前景&br&&b&体验地址：&/b&&a href=&http://kedou.workerman.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Workerman-todpole!&i class=&icon-external&&&/i&&/a&&br&&b&源码地址：&/b&&a href=&/walkor/workerman-todpole& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&walkor/workerman-todpole · GitHub&i class=&icon-external&&&/i&&/a&&br&这个项目是由&a href=&/danielmahal/Rumpetroll& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&danielmahal/Rumpetroll · GitHub&i class=&icon-external&&&/i&&/a& 修改而来，主要是服务端ruby部分改成了php，并支持了中文、头像、性别等&br&&br&2、BrowserQuest PHP 版本&br&&img src=&/60bfcbaefa53f92cfaf77c65_b.jpg& data-rawwidth=&1779& data-rawheight=&848& class=&origin_image zh-lightbox-thumb& width=&1779& data-original=&/60bfcbaefa53f92cfaf77c65_r.jpg&&&b&说明：&/b&这个前面已经有人说过了。原版是基于nodejs开发的，我发的这个是php版本的&br&&b&体验地址：&/b&&a href=&http://browserquest.workerman.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&BrowserQuest&i class=&icon-external&&&/i&&/a&&br&&b&源码地址：&/b&&a href=&/walkor/BrowserQuest-PHP& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&walkor/BrowserQuest-PHP · GitHub&i class=&icon-external&&&/i&&/a&&br&&br&&b&3、ascii 码视频流直播&/b&&br&&img src=&/7b4bf436c_b.jpg& data-rawwidth=&728& data-rawheight=&630& class=&origin_image zh-lightbox-thumb& width=&728& data-original=&/7b4bf436c_r.jpg&&&b&说明：&/b&是将摄像头视频转换成ascii码，实时直播直播。嗯，很好，不用再打码了....&br&&b&原理：&/b&canvas+websocket+php服务端&br&&br&&b&摄像头录像页面：&/b&&a href=&http://live-ascii-camera.workerman.net/camera.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&ascii camera&i class=&icon-external&&&/i&&/a&&br&&b&视频观看页面：&/b&&a href=&http://live-ascii-camera.workerman.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&ascii camera&i class=&icon-external&&&/i&&/a&&br&&b&源码：&/b&&a href=&/walkor/live-ascii-camera& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&walkor/live-ascii-camera · GitHub&i class=&icon-external&&&/i&&/a&&br&&br&&b&4、多人在线像素小鸟&/b&&br&&img src=&/ee836a9fe2ec4f_b.jpg& data-rawwidth=&798& data-rawheight=&462& class=&origin_image zh-lightbox-thumb& width=&798& data-original=&/ee836a9fe2ec4f_r.jpg&&&br&&b&说明：&/b&这个看图就知道是啥了，我就不多说了&br&&b&体验地址：&/b&&a href=&http://flap.workerman.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&workerman-flappy-bird 多人在线版&i class=&icon-external&&&/i&&/a&&br&&b&源码：&/b&&a href=&/walkor/workerman-flappy-bird& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&walkor/workerman-flappy-bird · GitHub&i class=&icon-external&&&/i&&/a&&br&&br&&b&5、服务器实时监控&/b&&br&&b&&img src=&/a683dda3ee6b6ccdb82e4b_b.jpg& data-rawwidth=&709& data-rawheight=&968& class=&origin_image zh-lightbox-thumb& width=&709& data-original=&/a683dda3ee6b6ccdb82e4b_r.jpg&&说明：&/b&将服务器各种运行数据以曲线的方式展示出来。同样使用了websocket+canvas+php&br&&b&体验地址：&/b&&a href=&http://vmstat.workerman.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Stats&i class=&icon-external&&&/i&&/a&&br&&b&源码：&/b&&a href=&/walkor/workerman-vmstat& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&walkor/workerman-vmstat · GitHub&i class=&icon-external&&&/i&&/a&&br&&br&&b&6、shadowsocks php服务端版本&/b&&br&&b&&img src=&/9beaa48a5a040_b.jpg& data-rawwidth=&300& data-rawheight=&167& class=&content_image& width=&300&&体验账号：&/b&见源码README.md&br&&b&源码：&/b&&a href=&/walkor/shadowsocks-php& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&walkor/shadowsocks-php · GitHub&i class=&icon-external&&&/i&&/a&&br&&br&&b&7、workerman&/b&&br&&b&&img src=&/31d3397cea014fe05da28_b.jpg& data-rawwidth=&195& data-rawheight=&50& class=&content_image& width=&195&&说明：&/b&这是我写的php的socket服务端框架，上面贴的所有应用都是基于这个框架开发的，还有些应用没贴出来。&br&我贴这个框架的意图是广大phper看到php的强大之处，毕竟都说“php是最好的语言嘛”，怎么也得拿出点新鲜东西小小的证明下，其他coder不要喷我哈...&br&&b&项目地址：&/b&&a href=&/walkor/workerman& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&walkor/workerman · GitHub&i class=&icon-external&&&/i&&/a&&br&&b&项目主页：&a href=&http://www.workerman.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&workerman 一个高性能的PHP Socket 服务器框架&i class=&icon-external&&&/i&&/a&&/b&&br&&br&&br&&b&以上应用如果你喜欢，欢迎点星星哦：）&/b&
发几个我自己的项目，或者说修改而来的项目1、小蝌蚪聊天室说明：有人说这个应用很奇葩、很邪恶、简直无底线。我觉得就是一个匿名社交应用嘛。目前还没有卖装备和道具，也没办法进化成青蛙，当然更没有传说中的蛋蛋。但是我总感觉这玩意儿有广阔前景体验地…
这个帖子竟然是我写过最多赞的，本人表示十分嗨森啊。作为一个游戏爱好者，我再给大家介绍一个非常cool的游戏project。2012年读研究生的时候（艾玛，暴露年龄了），我和导师希望用html5做一个多人在线玩拼图的游戏，在研究的过程中我猛然看到mozilla推出了一款叫做BrowserQuest的多人在线网页游戏，技术是html5+node.js+websocket，游戏地址&a href=&http://browserquest.mozilla.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&BrowserQuest&i class=&icon-external&&&/i&&/a&，github地址&a href=&/mozilla/BrowserQuest& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&mozilla/BrowserQuest · GitHub&i class=&icon-external&&&/i&&/a&，这游戏包含了完整的关卡，音效, 聊天，成就系统，简直就是html5游戏开发者的范本，mozilla也通过这个游戏鼓励大家使用html5打造属于自己的游戏，证明html5的强大。老规矩上图啦。&br&&img src=&/4a60f92dc3f9b69702fed0dffe7e3d50_b.jpg& data-rawwidth=&2040& data-rawheight=&978& class=&origin_image zh-lightbox-thumb& width=&2040& data-original=&/4a60f92dc3f9b69702fed0dffe7e3d50_r.jpg&&&br&登陆界面&br&&img src=&/60bfcbaefa53f92cfaf77c65_b.jpg& data-rawwidth=&1779& data-rawheight=&848& class=&origin_image zh-lightbox-thumb& width=&1779& data-original=&/60bfcbaefa53f92cfaf77c65_r.jpg&&城镇画面和其他在线的小伙伴&br&&img src=&/f3e1e459aa1f_b.jpg& data-rawwidth=&1718& data-rawheight=&906& class=&origin_image zh-lightbox-thumb& width=&1718& data-original=&/f3e1e459aa1f_r.jpg&&野外战斗啦～&br&游戏时间半个小时，可以拉小伙伴组队一起砍大boss，给大家附上一个凶残的攻略，毁掉你人生的半个小时哈哈，&a href=&/gl/7280.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Browserquest图文全攻略毁掉你人生的半个小时_&i class=&icon-external&&&/i&&/a&。&br&&br&-----------------------------------------------华丽丽的分割线-----------------------------------------------------------&br&哈，还用说么，当然是这个！&a href=&/contribute& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CodeCombat - Learn how to code by playing a game&i class=&icon-external&&&/i&&/a& 啦，&br&github的链接：&a href=&/codecombat/codecombat& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&codecombat/codecombat · GitHub&i class=&icon-external&&&/i&&/a&，这是世界第一的创业孵化器Y combinator扶持的初创企业，用coffeescript代码（类似javascript的前端语言）来打多人在线RPG游戏，是不是很geeky！附上几张游戏画面给大家看看。&br&&img src=&/4f31e706f4f3a4683d83_b.jpg& data-rawwidth=&1146& data-rawheight=&582& class=&origin_image zh-lightbox-thumb& width=&1146& data-original=&/4f31e706f4f3a4683d83_r.jpg&&右侧输入代码，不同的方法有不同的行为，包括攻击，移动，施魔法，使用物品等等&br&&img src=&/a8b34da5dae17158fa04_b.jpg& data-rawwidth=&750& data-rawheight=&350& class=&origin_image zh-lightbox-thumb& width=&750& data-original=&/a8b34da5dae17158fa04_r.jpg&&多人对战模式，人类大战兽人&br&&img src=&/675ad6ed87bad655f05c8d3d8b173752_b.jpg& data-rawwidth=&600& data-rawheight=&293& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/675ad6ed87bad655f05c8d3d8b173752_r.jpg&&如果代码有bug，下方会出现错误信息，玩家可以根据提示进行debug&br&&img src=&/c5e98c30d613aa2515976eeeb3857538_b.jpg& data-rawwidth=&600& data-rawheight=&298& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/c5e98c30d613aa2515976eeeb3857538_r.jpg&&单人模式通关后, 会有学习内容回顾&br&这是一个非常酷的项目，作为一个startup，在Y combinator孵化期间，他们非常有见地将整个项目开源，对于前后端技术和游戏开发感兴趣的同学可以尝试参与开发。在Y combinator孵化的三个月之内，有意思的发现是：&br&1. 超过120名开发者上传了超过2000个commit。通过&a href=&http://www.githubarchive.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub Archive&i class=&icon-external&&&/i&&/a&分析，从2011年二月开始统计，github上有将近9,455,755个代码库，codecombat是上升最快的开源项目，同时也是coffeescript最大的开源项目。&br&2. 来自209个国家的380,000个玩家在这个游戏上一共进行了六百六十万分钟的游戏时间，每周增长16%。&br&3. 翻译人员把游戏翻译成了38种语言。&br&4. 两台服务器在最高峰支持每分钟15000个访问请求，平均响应时间12ms&br&5. 通过全世界开发者的努力，多人对战模式推出！&br&&br&作为github上一个开源的项目，这还不够有意思么！在此谢谢github，谢谢互联网，谢谢Linus Torvalds，谢谢GNU，make all these happen.
这个帖子竟然是我写过最多赞的，本人表示十分嗨森啊。作为一个游戏爱好者，我再给大家介绍一个非常cool的游戏project。2012年读研究生的时候（艾玛，暴露年龄了），我和导师希望用html5做一个多人在线玩拼图的游戏，在研究的过程中我猛然看到mozilla推出了…
以程序员的角度回答下这个问题。&br&&br&&b&觉得有意思包括两方面&/b&&br&&blockquote&1. 意想不到的用途，即一般人想不到 Github 原来还可以这么用！&br&2. 让很多人受益的项目，特点是一般都是大型协作项目， contributors 比较多，对多数开发者适用&/blockquote&&br&下面分别说下两个中我觉得比较典型的例子，会不断更新&br&&br&&b&一、意想不到的用途&/b&&br&&ul&&li&&a href=&/GitbookIO/gitbook& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitbookIO/gitbook · GitHub&i class=&icon-external&&&/i&&/a&&br&&/li&&/ul&利用 Github 生成书籍，目前已有近千本书籍，具体见 &a href=&https://www.gitbook.io/explore& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Explore - GitBook&i class=&icon-external&&&/i&&/a&&br&&br&&ul&&li&&a href=&/resume/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&resume/ · GitHub&i class=&icon-external&&&/i&&/a&&br&&/li&&/ul&根据个人 Github 信息生成个人简历，比如我的简历 &a href=&http://resume.github.io/?trinea& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub Résumé&i class=&icon-external&&&/i&&/a& ，将链接最后换为你的 Github 用户名生成你自己的简历，第一次有点慢 orz&br&&br&&ul&&li&&a href=&/android-cn/android-jobs& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&android-cn/android-jobs · GitHub&i class=&icon-external&&&/i&&/a&&br&&/li&&/ul&Android 招聘，这个是我无聊发起的，利用 Watch 功能推送新提交（PR）的职位给关注者&br&&br&&ul&&li&&b&&a href=&http://lifesinger.github.io/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&lifesinger.github.io/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/b&&/li&&/ul&支付宝前端负责人玉伯的博客，比较不同的是利用 Issues 做博客，跟上面一样，利用 Watch 功能推送新文章给关注者&br&&br&&ul&&li&&a href=&/android-cn/interview-questions/issues& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Issues · android-cn/interview-questions · GitHub&i class=&icon-external&&&/i&&/a&&br&&/li&&/ul&Android 面试题集锦及解答，这个也是我发起的，旨在帮助大家更有方向更好的学习，参考玉伯的做法，只是这次更像个论坛&br&利用 Watch 接收最新通知，Subscribe 订阅单个问题；不同的 labe 表示问题级别&br&&br&&ul&&li&&b&利用 Github Page 做博客&/b&&br&&/li&&/ul&这个就不举例子了，因为现在太多个人博客是利用这个了。现在虽然感觉一般了，但刚出来那会儿绝对是让所有人惊奇的&br&&br&&ul&&li&&a href=&/blog/817-behold-image-view-modes& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Behold: Image view modes · GitHub&i class=&icon-external&&&/i&&/a&&br&&/li&&/ul&GitHub 支持 PSD Diff，设计师能否使用它作为设计稿版本控制工具？貌似稍微有点偏题&br&&br&&br&&b&二、受众极广的项目&/b&&br&&ul&&li&&a href=&/bayandin/awesome-awesomeness& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&bayandin/awesome-awesomeness · GitHub&i class=&icon-external&&&/i&&/a&&br&&/li&&/ul&这个系列包括各种令人惊叹的项目，从各种编程语言到算法、分析、大数据、书籍等等。网站版 &a href=&https://awesome-/alexander.bayandin& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Awesome Awesomeness by Alexander Bayandin&i class=&icon-external&&&/i&&/a&&br&&br&&ul&&li&&a href=&/github/gitignore& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&github/gitignore · GitHub&i class=&icon-external&&&/i&&/a&&/li&&/ul&各种语言的 Gitignore&br&&br&后续想到会持续补充，其他你觉得有意思的也欢迎在评论中告诉我
以程序员的角度回答下这个问题。觉得有意思包括两方面1. 意想不到的用途，即一般人想不到 Github 原来还可以这么用！2. 让很多人受益的项目，特点是一般都是大型协作项目， contributors 比较多，对多数开发者适用下面分别说下两个中我觉得比较典型的例子，…
功能上面虽然不复杂,但是要完成的细节却很多.　比如news feed里面的推荐算法就很重要,要根据用户之前的记录和与好友的关系来生成.　另外就是根据用户的信息和行为,要做机器学习和数据挖掘,从而来挑出最匹配的广告.这也是比较花人力的事情.&br&&br&另外Facebook的用户量奇大无比.　假设你只是做一个学校内部用的社交网站,　那肯定很简单.　但是如果考虑到上亿人在上面用.　你首先服务器就必须是一个分布式的机群,还要保证能抗住那么大的流量.　同时为了性能够好,不得不加上mem cache和网页分块加载等功能.　还有就是每天用户产生的总数据量(状态,留言,照片,分享等)有TB的数量级,你数据库是否撑住等等.&br&&br&另外树大招风,你要一个很强的安全小组来保证网站在受攻击的时候能防御好,还有要防止垃圾信息和恶心广告或者程序的散播.　另外还有为了全球化而带来的多语言问题.&br&&br&总之,一个网站做大了之后,很多问题就会产生,不是在校园里面做一个学期作业那么简单.
功能上面虽然不复杂,但是要完成的细节却很多. 比如news feed里面的推荐算法就很重要,要根据用户之前的记录和与好友的关系来生成. 另外就是根据用户的信息和行为,要做机器学习和数据挖掘,从而来挑出最匹配的广告.这也是比较花人力的事情.另外Facebook的用户…
刚看了一篇很有意思的文章，讲的很清楚——《你刚才在淘宝上买了一件东西》&blockquote&你发现快要过年了，于是想给你的女朋友买一件毛衣，你打开了&a href=&& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&。这时你的浏览器首先查询DNS服务器，将&a href=&& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&转换成ip地址。不过首先你会发现，你在不同的地区或者不同的网络（电信、联通、移动）的情况下，转换后的IP地址很可能是不一样的，这首先涉及到负载均衡的第一步，通过DNS解析域名时将你的访问分配到不同的入口，同时尽可能保证你所访问的入口是所有入口中可能较快的一个 (这和后文的CDN不一样)。&br&　　你通过这个入口成功的访问了&a href=&& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&的实际的入口IP地址。这时你产生了一个PV，即Page View，页面访问。每日每个网站的总PV量是形容一个网站规模的重要指标。淘宝网全网在平日（非促销期间）的PV大概是16-25亿之间。同时作为一个独立的用户，你这次访问淘宝网的所有页面，均算作一个UV（Unique Visitor用户访问）。最近臭名昭著的&a href=&& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&的日PV量最高峰在10亿左右，而UV量却远小于淘宝网十余倍，这其中的原因我相信大家都会知道。&br&　　因为同一时刻访问&a href=&& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&的人数过于巨大，所以即便是生成淘宝首页页面的服务器，也不可能仅有一台。仅用于生成&a href=&& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&首页的服务器就可能有成百上千台，那么你的一次访问时生成页面给你看的任务便会被分配给其中一台服务器完成。这个过程要保证公正、公平、平均（暨这成百上千台服务器每台负担的用户数要差不多），这一很复杂的过程是由几个系统配合完成，其中最关键的便是LVS(Linux Virtual Server)，世界上最流行的负载均衡系统之一，正是由目前在淘宝网供职的章文嵩博士开发的。&br&　　经过一系列复杂的逻辑运算和数据处理，用于这次给你看的淘宝网首页的HTML内容便生成成功了。对web前端稍微有点常识的童鞋都应该知道，下一步浏览器会去加载页面中用到的css、js、图片、脚本和资源文件。但是可能相对较少的同学才会知道，你的浏览器在同一个域名下并发加载的资源数量是有限制的，例如IE6-7是两个，IE8是6个，Chrome各版本不大一样，一般是4-6个。我刚刚看了一下，我访问淘宝网首页需要加载126个资源，那么如此小的并发连接数自然会加载很久。所以前端开发人员往往会将上述这些资源文件分布在好多个域名下，变相的绕过浏览器的这个限制，同时也为下文的CDN工作做准备。&br&　　据不可靠消息，在双十一当天高峰，淘宝的访问流量最巅峰达到871GB/S。这个数字意味着需要178万个4Mb带宽的家庭宽带才能负担的起，也完全有能力拖垮一个中小城市的全部互联网带宽。那么显然，这些访问流量不可能集中在一起。并且大家都知道，不同地区不同网络（电信、联通等）之间互访会非常缓慢，但是你却发现很少发现淘宝网访问缓慢。这便是CDN(Content Delivery Network)，即内容分发网络的作用。淘宝在全国各地建立了数十上百个CDN节点，利用一些手段保证你访问的（这里主要指js、css、图片等）地方是离你最近的CDN节点，这样便保证了大流量分散在各地访问的加速节点上。&br&　　这便出现了一个问题，那就是假若一个卖家发布了一个新的宝贝，上传了几张新的宝贝图片，那么淘宝网如何保证全国各地的CDN节点中都会同步的存在这几张图片供用户使用呢？这里边就涉及到了大量的内容分发与同步的相关技术。淘宝开发了分布式文件系统TFS(Taobao File System)来处理这类问题。&/blockquote&&blockquote&　　好了，这时你终于加载完了淘宝首页，那么你习惯性的在首页搜索框中输入了'毛衣'二字并敲回车，这时你又产生了一个PV，然后，淘宝网的主搜索系统便开始为你服务了。它首先对你输入的内容基于一个分词库进行分词操作。众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。我是一个学生，分词的结果是：我是一个学生。&/blockquote&&blockquote&　　进行分词之后，还需要根据你输入的搜索词进行你的购物意图分析。用户进行搜索时常常有如下几类意图：（1）浏览型：没有明确的购物对象和意图，边看边买，用户比较随意和感性。Query例如：”2010年10大香水排行”，”2010年流行毛衣”， “zippo有多少种类？”；（2）查询型：有一定的购物意图，体现在对属性的要求上。Query例如：”适合老人用的手机”，”500元手表”；（3）对比型：已经缩小了购物意图，具体到了某几个产品。Query例如：”诺基亚E71 E63″，”akg k450 px200″；（4）确定型：已经做了基本决定，重点考察某个对象。Query例如：”诺基亚N97″，”IBM T60″。通过对你的购物意图的分析，主搜索会呈现出完全不同的结果来。&br&　　之后的数个步骤后，主搜索系统便根据上述以及更多复杂的条件列出了搜索结果，这一切是由一千多台搜索服务器完成。然后你开始逐一点击浏览搜索出的宝贝。你开始查看宝贝详情页面。经常网购的亲们会发现，当你买过了一个宝贝之后，即便是商家多次修改了宝贝详情页，你仍然能够通过‘已买到的宝贝’查看当时的快照。这是为了防止商家对在商品详情中承诺过的东西赖账不认。那么显然，对于每年数十上百亿比交易的商品详情快照进行保存和快速调用不是一个简单的事情。这其中又涉及到数套系统的共同协作，其中较为重要的是Tair，淘宝自行研发的分布式KV存储方案。&br&　　然后无论你是否真正进行了交易，你的这些访问行为便忠实的被系统记录下来，用于后续的业务逻辑和数据分析。这些记录中访问日志记录便是最重要的记录之一，但是前边我们得知，这些访问是分布在各个地区很多不同的服务器上的，并且由于用户众多，这些日志记录都非常庞大，达到TB级别非常正常。那么为了快速及时传输同步这些日志数据，淘宝研发了TimeTunnel，用于进行实时的数据传输，交给后端系统进行计算报表等操作。&br&　　你的浏览数据、交易数据以及其它很多很多的数据记录均会被保留下来。使得淘宝存储的历史数据轻而易举的便达到了十数甚至更多个 PB(1PB=1024TB=1048576GB)。如此巨大的数据量经过淘宝系统1:120的极限压缩存储在淘宝的数据仓库中。并且通过一个叫做云梯的，由2000多台服务器组成的超大规模数据系统不断的进行分析和挖掘。&br&　　从这些数据中淘宝能够知道小到你是谁，你喜欢什么，你的孩子几岁了，你是否在谈恋爱，喜欢玩魔兽世界的人喜欢什么样的饮料等，大到各行各业的零售情况、各类商品的兴衰消亡等等海量的信息。
&br&　　说了这么多，其实也只是叙述了淘宝上正在运行的成千上万个系统中的寥寥几个。即便是你仅仅访问一次淘宝的首页，所涉及到的技术和系统规模都是你完全无法想象的，是淘宝2000多名顶级的工程师们的心血结晶，其中甚至包括长江学者、国家科学技术最高奖得主等众多大牛。同样，百度、腾讯等的业务系统也绝不比淘宝简单。你需要知道的是，你每天使用的互联网产品，看似简单易用，背后却凝聚着难以想象的智慧与劳动。&br&来源：&a href=&/blog/9372165& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/blog/25&/span&&span class=&invisible&&372165&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/blockquote&
刚看了一篇很有意思的文章，讲的很清楚——《你刚才在淘宝上买了一件东西》你发现快要过年了，于是想给你的女朋友买一件毛衣，你打开了。这时你的浏览器首先查询DNS服务器，将转换成ip地址。不过首先你会发现，你…
就拿淘宝来说说，当作给新人一些科普。&br&&br&先说你看到的页面上，最重要的几个：&br&【搜索商品】——这个功能，如果你有几千条商品，完全可以用select * from tableXX where title like %XX%这样的操作来搞定。但是——当你有（一百亿）条商品的时候，任何一个数据库都无法存放了，请问你怎么搜索？这里需要用到分布式的数据存储方案，另外这个搜索也不可能直接从数据库里来取数据，必然要用到搜索引擎（简单来说搜索引擎更快）。好，能搜出商品了，是否大功告成可以啵一个了呢？早着呢，谁家的商品出现在第一页？这里需要用到巨复杂的排序算法。要是再根据你的购买行为做一些个性化的推荐——这够一帮牛叉的算法工程师奋斗终生了。&br&&br&【商品详情】——就是搜索完毕，看到你感兴趣的，点击查看商品的页面，这个页面有商品的属性、详细描述、评价、卖家信息等等，这个页面的每天展示次数在30亿以上，同样的道理，如果你做一个网站每天有10个人访问，你丝毫感觉不到服务器的压力，但是30亿，要解决的问题就多了去了。首先，这些请求不能直接压到数据库上，任何单机或分布式的数据库，承受30亿每天的压力，都将崩溃到完全没有幸福感，这种情况下要用到的技术就是大规模的分布式缓存，所有的卖家信息、评价信息、商品描述都是从缓存里面来取到的，甚至更加极致的一点“商品的浏览量”这个信息，每打开页面一次都要刷新，你猜能够从缓存里面来取吗？淘宝做到了，整个商品的详情都在缓存里面。&br&&br&【商品图片】——一个商品有5个图片，商品描述里面有更多图片，你猜淘宝有多少张图片要存储？100亿以上。这么多图片要是在你的硬盘里面，你怎么去查找其中的一张？要是你的同学想拷贝你的图片，你需要他准备多少块硬盘？你需要配置多少大的带宽？你们的网卡是否能够承受？你需要多长时间拷贝给他？这样的规模，很不幸市面上已经没有任何商业的解决方案，最终我们必须自己来开发一套存储系统，如果你听说过google的GFS，我们跟他类似，叫TFS。顺便说一下，腾讯也有这样的一套，也叫TFS。&br&&br&【广告系统】——淘宝上有很多广告，什么，你不知道？那说明我们的广告做的还不错，居然很多人不认为它是广告，卖家怎么出价去买淘宝的广告位？广告怎么展示？怎么查看广告效果？这又是一套算法精奇的系统。&br&&br&【BOSS系统】——淘宝的工作人员怎么去管理这么庞大的一个系统，例如某时刻突然宣布某位作家的作品全部从淘宝消失，从数据库到搜索引擎到广告系统，里面的相关数据在几分钟内全部消失，这又需要一个牛叉的后台支撑系统。&br&&br&【运维体系】——支持这么庞大的一个网站，你猜需要多少台服务器？几千台？那是零头。这么多服务器，上面部署什么操作系统，操作系统的内核能否优化？Java虚拟机能否优化？通信模块有没有榨取性能的空间？软件怎么部署上去？出了问题怎么回滚？你装过操作系统吧，优化过吧，被360坑过没，崩溃过没？这里面又有很多门道。&br&&br&不再多写了，除了上面提到的这些，还有很多很多需要做的技术，当然并不是这些东西有多么高不可攀，任何复杂的庞大的东西都是从小到大做起来的，里面需要牛叉到不行的大犇，也需要充满好奇心的菜鸟，最后这一句，你当我是别有用心好了。
就拿淘宝来说说，当作给新人一些科普。先说你看到的页面上，最重要的几个：【搜索商品】——这个功能，如果你有几千条商品，完全可以用select * from tableXX where title like %XX%这样的操作来搞定。但是——当你有（一百亿）条商品的时候，任…
没有绝对的正确。取决于你的目标，以及所面临的挑战。&br&&br&淘宝的技术升级路线讲过，最早淘宝也是用开源软件开始起步的，然后各种坑不断填补，所谓开着车换轮子。也发展到现在非常非常了不起。&br&&br&创业初期，快速验证业务模型，验证市场反馈，当你的产品并不依赖于技术的时候，（大部分创业是这样的，但不能绝对化），建议不要造轮子，尽可能用成熟方案起步。&br&中期，看你所遇到的挑战，是否有成熟方案可以解决，是否遇到现有方案彻底无法解决和规避的问题，以及你的技术力量，资金和时间的要求，决定是否通过自己的力量补强。&br&到了市场的绝对领先者地位时，可能所有通用的模型和工具都无法满足你的时候，那时候可能就需要大量的造轮子了，但请注意保持尽可能的通用性，有条件的话尽量回馈技术社区，这不是亏本的买卖，因为那时候你发现人才永远是不够用的，回馈技术社区是一个攒人品吸纳人才的好事情。&br&&br&以上可以适用于大部分创业公司的发展场景，但一些特别特殊的创业场景不适用。
没有绝对的正确。取决于你的目标，以及所面临的挑战。淘宝的技术升级路线讲过，最早淘宝也是用开源软件开始起步的，然后各种坑不断填补，所谓开着车换轮子。也发展到现在非常非常了不起。创业初期，快速验证业务模型，验证市场反馈，当你的产品并不依赖于技…
对于阿里巴巴的算法工程师：&br&&br&1.ACM对思维与编程能力的训练是值得肯定的，是加分项，但不是完全的决定性因素。&br&&br&2.算法工程师，需要机器学习及其相关数学，以及特定方向（数据挖掘，自然语言处理，图像，语音等）的领域基础知识。&br&推荐的资料:&br&a. 书籍：《统计学习方法》，《Pattern Recognition and Machine Learning》，《The Elements of Statistical Learning》，《凸优化》&br&b. 视频教程：Andrew Ng的Coursera公开课《Machine Learning》，台湾大学林轩田的《机器学习基石》和《机器学习技法》，Stanford公开课 CS229 《Machine Learning》。&br&c.机器学习，数据挖掘等领域的顶级会议的paper。&br&&br&自己根据自己的情况选择资料的使用顺序，缺什么补什么。可以去kaggle上参加数据挖掘竞赛练练手。理论与工程经验都很重要。&br&&br&3.学历只是一个标签，关注点应该是你有多强的实力，有的人虽然本科，但是已经有了Ph.D的水平了不是？加油，成为更好的自己！&br&&br&4.实习还是蛮重要的，可以帮助你感受下企业和校园的区别，实习机会可以网申也可以找师兄内部推荐。&br&&br&&br&成为数据科学家/优秀的算法工程师的路非常的漫长，我正在努力奋斗。每天都有大量的信息涌入我的世界，从信息中提取知识并学习是我一直坚持做的东西。有梦想，就有动力，坚持，努力。
对于阿里巴巴的算法工程师：1.ACM对思维与编程能力的训练是值得肯定的，是加分项，但不是完全的决定性因素。2.算法工程师，需要机器学习及其相关数学，以及特定方向（数据挖掘，自然语言处理，图像，语音等）的领域基础知识。推荐的资料:a. 书籍：《统计学…
趁着半夜等欧冠比赛的时间来回答下这个问题。题主问了四个问题，我都会详细地回答。&br&华中科技大学11级电信狗一枚，2014年阿里巴巴算法工程师的实习生，实习的时间是大三升大四的那个暑假。本科毕业后我选择了读相关方向的研究生，并没有选择直接留在阿里工作。对于阿里巴巴算法工程师，我谈一下自己的理解。&br&&br&&u&问题1：acm分区赛奖牌的重要性？什么牌在阿里这种公司中会有较大的说服力？银？金？&/u&&br&答：普遍来说，ACM奖牌在互联网公司的认可度还是比较高的。但需要注意的是，不要直接把这个和算法工程师挂钩。两者并没有直接联系。&br&如果面试官是ACM出身的，他可能就比较青睐ACM选手；但算法工程师中的算法其实是指机器学习，数据挖掘方面的算法，并不是ACM中的算法。所以还是有相当一部分面试官并不了解ACM，他们就不会对ACM选手有过多的青睐。由于他们不清楚ACM的份量，所以他们评价你还是看你的面试表现。&br&&br&这里小小爆个料，希望没有违反到保密协议。我实习期间在内网看到一个帖子，发帖者很愤懑地说自己内推了一个ACM大牛师弟过来面试算法工程师，但那个师弟竟然一面就被刷了。发帖者质问这是怎么回事。那个帖子列了他的师弟在ACM取得的成绩，确实是大牛，好几块ACM区域赛金牌（进了final），腾讯马拉松总决赛亚军，Google code jam也取得了很好的成绩。此帖引起了广泛的讨论，但最终主流意见还是觉得这次没有刷错人。因为那位ACM大神在面试中的表现太“偏科”了，除了秒杀算法与数据结构的问题之外，其他的问题（比如操作系统，机器学习等方面）都答得不够好。一位业界有名的大神（在阿里技术等级是P10）在那帖下面直言“并不觉得ACM的牌子很硬。对于应届生，计算机专业基础更加重要。”&br&其实按照我的看法，这次面试显然刷错人了。做过ACM的人都明白那位面试者取得成绩的份量，能做到那种成绩显然是智商极高，代码能力超强，数学功底非常扎实的人。这样的人即使有知识缺陷，但学什么技术都快，又啃钻研。可惜更多的面试官没做过ACM，他们并不清楚对应奖项的份量，不清楚这个奖项背后绑定了哪些可贵的素质和能力。所以很可能你的牛逼奖项在别人眼中也只是一个很普通的竞赛获奖。&br&&br&在面试算法工程师的时候，ACMer对比没做过竞赛的学生最大优势不是那几块奖牌，而是面试中展现出来的代码能力和算法能力。阿里面试中问到的数据结构与算法题放在ACM竞赛里都是入门题、水题，所以认真搞过ACM的人肯定可以秒杀这种题目。我在面试阿里算法工程师的时候遇到最难的让我写代码的问题是“最大子矩阵和”，搞过ACM的都知道这是DP的入门题。对于ACMer，写这种题简直太容易了。而没搞竞赛、也没专门训练过的计算机学生，数据结构和算法的基本功一般不大好。别说动态规划了，就是DFS,BFS,二分查找这些东西也能刷掉一大批人。&br&所以我的看法，做ACM对申请算法工程师是有帮助的，但并不能确保你拿到offer；如果你只会ACM，其他的东西都没掌握好，很可能面试会悲剧掉。&br&&br&&u&问题2：除acm及课内知识，需要学习的方面有哪些？如数据挖掘/机器学习/云等。如能得到具体的学习方法/步骤/网站/书目/则不胜感激！&/u&&br&答：算法工程师其实是机器学习工程师，数据挖掘工程师，自然语言处理工程师等等。所以去申请算法工程师，机器学习方面的背景才是关键。当然除了算法之外，大数据处理方面的技能也最好掌握。因为阿里的算法工程师面对的都是海量数据规模。分布式计算，map-reduce，Hadoop，MPI, spark …… 这些也在算法工程师的技能树之中。&br&至于具体的学习方法，这都可以另外开一个问题了，我就不在这里展开了。在机器学习如此火的现在，这些东西的学习方法/步骤在网上很容易找的。不过有一点需要注意，你想成为阿里巴巴算法工程师，比较推荐参加阿里的大数据竞赛。&br&这个竞赛现在似乎已经举办了两届了，并且似乎会持续举办下去。这种比赛既涉及到了机器学习和数据挖掘的算法，也涉及到了大数据处理（一般复赛会用ODPS）。对于申请阿里巴巴的算法工程师岗位，这个比赛获奖可比ACM有帮助得多。印象中这个竞赛不仅奖金额度非常高，还提供绿色通道和实习机会，甚至还有机会让你成为阿里星。如果你想来阿里巴巴做算法工程师，强烈推荐参加这个竞赛。&br&另外，数据挖掘方面的竞赛强烈推荐用kaggle来练手。至于kaggle是什么，请自行搜索。&br&&br&&u&问题3：研究生学历对于阿里算法工程师来说是否必要？或者说是不是绝大多数都是研究生？&/u&&br&答：不必要，我见过不少本科毕业就拿到阿里算法工程师offer的同学。但是希望题主明白一点，算法工程师或者说机器学习工程师，对理论基础还是有较高要求的。大多数本科生在机器学习方面的背景都很薄弱，无法胜任算法工程师的要求。所以这种岗位大多数确实是研究生。印象中腾讯和百度相关岗位的招聘就写明了硕士以上。个人觉得这不是学历歧视，只是这个岗位的特性注定了本科生不太适合做这个，因为本科生相关方面的背景不够。&br&如果你对机器学习确实感兴趣，建议读研；如果你想成为一个牛逼闪闪的数据科学家，我还推荐你找个好导师读Phd。&br&&br&&u&问题4：去阿里实习是大学计划中的最重要一步：常见的获得实习机会的方法除网申是否还有？实习的最好时间是什么？&/u&&br&答：最好方法肯定就是内推了。一般你可以找你们学校ACM集训队的学长帮你内推，一般来说，一个985大学的ACM集训队肯定有大批学长去BAT，google工作的，不愁找不到内推。再就是我前面提到的阿里大数据竞赛，这个竞赛排名靠前可以直接得到阿里算法工程师实习机会。&br&至于最好的实习时间，对于一般人是大三升大四的暑假；当然如果你是那种从小就开始编程，靠OI保送到大学的同学，我建议越早越好。很多NOI、IOI选手可是从大一就开始在各种牛逼公司实习。&br&如果你是普通的大一新生（大学前没有很多计算机基础），其实你的大学时间表已经排满了。现在大一是吧？一般对于ACM新手，要出不错的成绩需要两年的时间。大一升大二，大二升大三的暑假估计都会用来ACM集训；然后大三升大四的暑假用来实习。同时你要兼顾计算机专业那些很重要的课程，比如操作系统，计算机体系结构，计算机网络等等；并且你还要抽出时间系统地搞机器学习和数据挖掘。这三样中的每一样都要耗费大量的时间；我只能对你说，虽然你才大一，可是你的时间真心不多了……&br&&br&最后，在你的问题之外，我需要反问一些问题。你为什么想成为阿里巴巴算法工程师？首先为什么想做算法工程师？其次为什么是阿里巴巴？你现在应该对机器学习方面没怎么接触吧，没接触过的情况就无法确定自己是否对机器学习感兴趣，既然不确定是否感兴趣，为什么想做算法工程师呢？其实成为一个算法工程师，数据科学家，有很多更好的去处。为什么你大一就确定了去阿里呢？&br&问这些我也只是想让你审视自己的内心，自己追求目标的驱动力是什么。希望你明白自己真正想要什么，而不是盲目跟风。如果在最后你依旧决定走这条路，我会给你无限的祝福。因为我们应该算是同道中人了，I am also on the way to be a data scientist.
趁着半夜等欧冠比赛的时间来回答下这个问题。题主问了四个问题，我都会详细地回答。华中科技大学11级电信狗一枚，2014年阿里巴巴算法工程师的实习生，实习的时间是大三升大四的那个暑假。本科毕业后我选择了读相关方向的研究生，并没有选择直接留在阿里工作…
kaggle，数据挖掘者的有奖竞赛社区，是KDD Cup的协作方
kaggle，数据挖掘者的有奖竞赛社区，是KDD Cup的协作方
&a href=&http://spss-market.r./& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&spss-market.r.&/span&&span class=&invisible&&/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&数据挖掘与分析&br&&a href=&http://shenhaolaoshi./& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&shenhaolaoshi.&/span&&span class=&invisible&&/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 沈浩老师&br&&a href=&http://idmer./& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&idmer./&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a& 数据挖掘者&br&&a href=&/portal.php& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/portal.php&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a& 数据挖掘研究眼&br&&a href=&/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a& 数据仓库之路&br&&a href=&/portal.php& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/por&/span&&span class=&invisible&&tal.php&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 数据分析门户&br&上面有一些博客，博主都没有时间去更新了。欢迎大家补充更多更好的
数据挖掘与分析沈浩老师数据挖掘者数据挖掘研究眼数据仓库之路数据分析门户上面有一些博客，博主都没有时间去更新了。欢…
更新，由于经常接到私信要求在这个书单之内再推荐两三本，每个人的行业背景也不一样，所以就把下面的书单归类整理一下。&br&&br&入门读物：&br&&ol&&li&&a href=&/subject/5257905/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深入浅出数据分析 (豆瓣)&i class=&icon-external&&&/i&&/a& 这书挺简单的，基本的内容都涉及了，说得也比较清楚，最后谈到了R是大加分。难易程度：非常易。&/li&&li&&a href=&/subject/3283973/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&啤酒与尿布 (豆瓣)&i class=&icon-external&&&/i&&/a& 通过案例来说事情，而且是最经典的例子。难易程度：非常易。&/li&&li&&a href=&/subject/5269219/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&数据之美 (豆瓣)&i class=&icon-external&&&/i&&/a& 一本介绍性的书籍，每章都解决一个具体的问题，甚至还有代码，对理解数据分析的应用领域和做法非常有帮助。难易程度：易。&/li&&li&&a href=&/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&数学之美 (豆瓣)&i class=&icon-external&&&/i&&/a& 这本书非常棒啦，入门读起来很不错！&br&&/li&&/ol&数据分析：&br&&ol&&li&&a href=&/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&SciPy and NumPy (豆瓣)&i class=&icon-external&&&/i&&/a& 这本书可以归类为数据分析书吧，因为numpy和scipy真的是非常强大啊。&br&&/li&&li&&a href=&/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Python for Data Analysis (豆瓣)&i class=&icon-external&&&/i&&/a& 作者是Pandas这个包的作者，看过他在Scipy会议上的演讲，实例非常强！&br&&/li&&li&&a href=&/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Bad Data Handbook (豆瓣)&i class=&icon-external&&&/i&&/a& 很好玩的书，作者的角度很不同。&/li&&/ol&适合入门的教程：&br&&ol&&li&&a href=&/subject/3288908/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&集体智慧编程 (豆瓣)&i class=&icon-external&&&/i&&/a& 学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法，浅显易懂，还有可执行的Python代码。难易程度：中。&/li&&li&&a href=&/subject/6962285/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Machine Learning in Action (豆瓣)&i class=&icon-external&&&/i&&/a& 用人话把复杂难懂的机器学习算法解释清楚了，其中有零星的数学公式，但是是以解释清楚为目的的。而且有Python代码，大赞！目前中科院的王斌老师（微博：
王斌_ICTIR）已经翻译这本书了 &a href=&/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习实战 (豆瓣)&i class=&icon-external&&&/i&&/a&。这本书本身质量就很高，王老师的翻译质量也很高。难易程度：中。我带的研究生入门必看数目之一！&/li&&li&&a href=&/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Building Machine Learning Systems with Python (豆瓣)&i class=&icon-external&&&/i&&/a& 虽然是英文的，但是由于写得很简单，比较理解，又有 Python 代码跟着，辅助理解。&/li&&li&&a href=&/subject/5377669/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&数据挖掘导论 (豆瓣)&i class=&icon-external&&&/i&&/a& 最近几年数据挖掘教材中比较好的一本书，被美国诸多大学的数据挖掘课作为教材，没有推荐Jiawei Han老师的那本书，因为个人觉得那本书对于初学者来说不太容易读懂。难易程度：中上。&/li&&li&&a href=&/subject/7906768/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Machine Learning for Hackers (豆瓣)&i class=&icon-external&&&/i&&/a& 也是通过实例讲解机器学习算法，用R实现的，可以一边学习机器学习一边学习R。&/li&&/ol&&br&稍微专业些的：&br&&ol&&li&&a href=&/subject/3916225/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Introduction to Semi-Supervised Learning (豆瓣)&i class=&icon-external&&&/i&&/a& 半监督学习必读必看的书。&br&&/li&&li&&a href=&/subject/4063191/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Learning to Rank for Information Retrieval (豆瓣)&i class=&icon-external&&&/i&&/a& 微软亚院刘铁岩老师关于LTR的著作，啥都不说了，推荐！&br&&/li&&li&&a href=&/subject/6440223/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣)&i class=&icon-external&&&/i&&/a& 李航老师关于LTR的书，也是当时他在微软亚院时候的书，可见微软亚院对LTR的研究之深，贡献之大。&/li&&li&&a href=&/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&推荐系统实践 (豆瓣)&i class=&icon-external&&&/i&&/a& 这本书不用说了，研究推荐系统必须要读的书，而且是第一本要读的书。&/li&&li&&a href=&/subject/3722993/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Graphical Models, Exponential Families, and Variational Inference (豆瓣)&i class=&icon-external&&&/i&&/a& 这个是Jordan老爷子和他的得意门徒 &a href=&/search/Martin%20J%20Wainwright& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Martin J Wainwright&i class=&icon-external&&&/i&&/a& 在 Foundation of Machine Learning Research上的创刊号，可以免费下载，比较难懂，但是一旦读通了，graphical model的相关内容就可以踏平了。&/li&&li&&a href=&/subject/3696989/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Natural Language Processing with Python (豆瓣)&i class=&icon-external&&&/i&&/a& NLP 经典，其实主要是讲 NLTK 这个包，但是啊，NLTK 这个包几乎涵盖了 NLP 的很多内容了啊！&br&&/li&&/ol&&br&机器学习教材：&br&&ol&&li&&a class=& wrap external& href=&/subject/3294335/& target=&_blank& rel=&nofollow noreferrer&&The Elements of Statistical Learning (豆瓣)&i class=&icon-external&&&/i&&/a& 这本书有对应的中文版：&a href=&/subject/1152126/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&统计学习基础 (豆瓣)&i class=&icon-external&&&/i&&/a&。书中配有R包，非常赞！可以参照着代码学习算法。&/li&&li&&a href=&/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&统计学习方法 (豆瓣)&i class=&icon-external&&&/i&&/a& 李航老师的扛鼎之作，强烈推荐。难易程度：难。 &/li&&li&&a href=&/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Machine Learning (豆瓣)&i class=&icon-external&&&/i&&/a& 去年出版的新书，作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大成之作，写完之后，就去Google了，产学研结合，没有比这个更好的了。&br&&/li&&li&&a href=&/subject/3887824/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Machine Learning (豆瓣)&i class=&icon-external&&&/i&&/a& 这书和上面的书不是一本！这书叫：Machine Learning: An Algorithmic Perspective 之前做过我带的研究生教材，由于配有代码，所以理解起来比较容易。&br&&/li&&li&&a class=& wrap external& href=&/subject/2061116/& target=&_blank& rel=&nofollow noreferrer&&Pattern Recognition And Machine Learning (豆瓣)&i class=&icon-external&&&/i&&/a& 经典中的经典。&/li&&li&&a href=&/subject/5397287/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Bayesian Reasoning and Machine Learning (豆瓣)&i class=&icon-external&&&/i&&/a& 看名字就知道了，彻彻底底的Bayesian学派的书，里面的内容非常多，有一张图将机器学习中设计算法的关系总结了一下，很棒。&/li&&li&&a href=&/subject/4007200/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Probabilistic Graphical Models (豆瓣)&i class=&icon-external&&&/i&&/a& 鸿篇巨制，这书谁要是读完了告诉我一声。&br&&/li&&li&&a href=&/subject/1888111/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Convex Optimization (豆瓣)&i class=&icon-external&&&/i&&/a& 凸优化中最好的教材，没有之一了。课程也非常棒，Stephen老师拿着纸一步一步推到，图一点一点画，太棒了。&/li&&/ol&-------------------------------------------------------------------------------------&br&如果你觉得我的答案对你有帮助，可以考虑向我付费：&br&&img src=&/affddd0be397fe7dab92d596_b.jpg& data-rawwidth=&270& data-rawheight=&270& class=&content_image& width=&270&&
更新，由于经常接到私信要求在这个书单之内再推荐两三本，每个人的行业背景也不一样，所以就把下面的书单归类整理一下。入门读物：这书挺简单的，基本的内容都涉及了，说得也比较清楚，最后谈到了R是大加分。难易程度：非…
看了@daVinci 的答案，我自己的答案属于他说的第三点，由于自己是学机器学习的，术业有专攻，难免有疏漏，还希望大家逐渐完善这个问题啊！&br&&br&&br&考研，国内的，国外的都行。觉得AI的研究还是国外的研究比较好，而且实用化走在了前面，最好的例子就是Siri了。国内微软亚洲研究院和IBM研究院都很棒啊，但是如果不考研的话，无法证明科研实力。
&br&&br&需要的知识：
&br&&ul&&li&数学是一定要的。人工智能太广了，如果是做机器学习和数据挖掘，那么概率论和统计学（注意，不是大学的数理统计，是两门学科）是必修课。优化论也是非常必要的。而高等代数、数学分析自然是不必说的。&/li&&li&编程知识。这个取决于你的项目需求，其实哪种语言都好。不过，还是建议学习一门经典的语言，比如 C/C++,JAVA 和一门现代的语言，比如 Python, R 等等。&b&不要学 Matlab！这是一门非常落后的语言，而且在实际中没法用！&/b&&/li&&li&其他的我没法归类，但是我觉得做AI，知识面要广泛，现在的AI已经不是狭义的定义为人工智能，去模拟人的行为，而是扩展到生活的各个方面，比如相机中的人脸识别，Google做的自动驾驶的小车，Siri中用到的自然语言处理，推荐系统背后的协同过滤。这些方面很多一部分是人在通过算法这种手段学习/模拟人类这个整体的活动规律。所以我觉得了解一些社会学知识，管理学知识也是非常必要的。从另一个方面讲，AI也是去探索智能的学科，最近由于fMRI技术的成熟，搞AI的学者们也和其他领域的学者合作，利用fMRI技术，研究人脑中产生智慧的机理，所以从这个角度上说，如果想从事这个方面的研究，了解相关知识也是很有必要的。还有，AI与其他领域另一个完美结合的例子是生物信息学，这个就不必说了，懂生物学是做生物信息学的必要条件。&/li&&/ul&罗嗦了好多，我想也仅仅回答了你一部分问题，觉得AI是一个非常有前景的领域，值得入行！&br&&br&-------------------------------------------------------------------------------------&br&如果你觉得我的答案对你有帮助，可以考虑向我付费：&br&&img src=&/ac9caed775c02db6646d72_b.jpg& data-rawwidth=&320& data-rawheight=&442& class=&content_image& width=&320&&
看了@daVinci 的答案，我自己的答案属于他说的第三点，由于自己是学机器学习的，术业有专攻，难免有疏漏，还希望大家逐渐完善这个问题啊！考研，国内的，国外的都行。觉得AI的研究还是国外的研究比较好，而且实用化走在了前面，最好的例子就是Si…
条条大路通罗马，确实有很多ACM出身的技术大牛，同样也有更多没做过ACM的大牛。搞ACM对于很多人来说确实是一条不错的路，但必须搞ACM这个观点显然是不对的，你如果不感兴趣，可以通过其他的手段提升自己。&br&但有一点要注意，本科阶段要注意内功的修炼。IT行业是诞生新名词最快的领域，技术的更新换代特别快，所以不能流于表面，要趁着本科阶段学好这个行业最核心、最经典的东西。&br&&br&计算机行业是一个门槛极低，基层人数特别庞大但上层人才又极度缺乏的行业。写代码并非高大上的活，一般人不读大学去读个技校也能像模像样地写一些代码；而一个真正出色的geek还是需要非常深厚的内功积累，对底层原理、对系统、对算法有着透彻的理解。所以这个行业看起来竞争激烈，但其实特别浮躁，以至于只要你踏踏实实做一些事，毕业时就能胜过大部分人。&br&&br&个人觉得在本科期间值得花时间做的事情很多，下面列出四点。踏踏实实做好一件就可以跟常人有档次上的差距：&br&（1）读国外经典教材，上国外经典的公开课&br&知乎上的著名技术大牛 &a data-hash=&78e3b2ae1be4ab038a6e& href=&/people/78e3b2ae1be4ab038a6e& class=&member_mention& data-editable=&true& data-title=&@赵劼& data-tip=&p$b$78e3b2ae1be4ab038a6e&&@赵劼&/a& 曾说过：“把你学校的课程对应的国外名牌大学的课程教材找出来一本本啃下来，毕业后月工资估计不会低于2w。” 出处见&a href=&/question//answer/& class=&internal&&计算机科学与技术专业的学生要怎样做才能避免成为一个低级的码农？ - 赵劼的回答&/a&&br&我觉得这句话很有道理，国内大多数学校的计算机课程比较水，实践环节过少，训练强度不够，一不留神就混过去了。想认真学好还是得认真啃经典教材，比如题主所说的《深入理解计算机系统》就是一本非常值得读的书。如果题主大学能读好这本书，完成相关的作业，相信毕业时肯定可以秒杀大多数应届生。&br&&br&（2）参加有含金量的竞赛（国家级和国际级）&br&1.
算法类：最著名的就是ACM/ICPC，这是团队赛。个人类的竞赛还有很多，国内的百度之星，微软编程之美，国外的Google Code Jam，Facebook Hacker Cup，Topcoder Open等等。&br&当然Topcoder不止是算法类的竞赛，也有开发类的。&br&2. 信息安全类：&a href=&https://ctftime.org/event/list/upcoming& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CTFtime.org / All about CTF (Capture The Flag)&i class=&icon-external&&&/i&&/a&上的各种信息安全竞赛，阿里安全技术竞赛ALICTF&br&3. 机器学习类：阿里的大数据竞赛，kaggle上的一系列比赛&br&4. 高性能计算类：ASC亚洲大学生超级计算机竞赛，美国SC、德国ISC大学生超算大赛&br&5. 工程类：微软创新杯，挑战杯 &br&6. 学术类：各大会议的附属比赛，例如KDD Cup / Sigmod programming contest / ICFP Contest&br&&br&以上是我觉得比较适合计算机专业参加并且非常有含金量的比赛。参加比赛的好处多多，能力上的提升是一方面的；还能认识更多牛人，能够公费旅游；做得很好还可以得到各种奖金，各种保研、出国、实习/工作的机会。&br&&br&（3）个人项目（Github），长期写技术博客&br&如果在学校找不到好的做项目机会，可以试试Github。找工作的时候如果Github上有不错的项目经历，是很大的加分项。我见过的非竞赛出身的技术大神，基本都在github上有不错的表现，例如大家都在说的轮子哥。&br&自己折腾一个技术博客，对于geek来说也是非常不错的方式。很多技术大神都有自己长期经营的技术博客。&br&&br&（4）有含金量的实习经历&br&国内就有很多不错的实习地方，Google，MSRA，BAT，Hulu等等。有含金量的实习经历可以大大提升你的背景。当然，要得到这样的实习机会，也需要自己具有较强的实力。&br&&br&（5）去实验室做research&br&谢谢评论中 &a data-hash=&a8b43b150fc00a30edded3& href=&/people/a8b43b150fc00a30edded3& class=&member_mention& data-editable=&true& data-title=&@刘正中& data-tip=&p$b$a8b43b150fc00a30edded3&&@刘正中&/a& 的提醒，补上这一点。如果题主以后打算读Phd，那最好在本科阶段就开始进实验室干活。关于这方面的经验，推荐知乎一个回答&a href=&/question//answer/?utm_source=weibo&utm_medium=weibo_share&utm_content=share_answer&utm_campaign=share_button& class=&internal&&如何能在本科三年级就发表论文？ - 匿名用户的回答&/a& 据考证，匿名回答这个问题的是一位上交的大神，后来去了加州理工读Phd。他大三发表的那篇CVPR现在已经超过1400引用，这个回答里面谈到了他的经验。虽然大神的经验过于“血腥”，但他提到的做research的方法我觉得是比较科学的，希望对题主有帮助。&br&如果自己的学校实验室条件有限，可以去做偏学术的实习，比如去MSRA，百度IDL以及各大高校的实验室。题主如果有出国的打算，那这一点应该比前面四点都要重要。&br&&br&一般这几点里面具备一点就已经有不错的竞争力了，毕业找工作拿到好的offer应该没问题。如果都具备，或者在某一点做的特别好，那就是神一般的人物了。&br&另外题主还提到了保研去清华，这个的关键还是你的成绩。一般的学校想保研去清华，需要GPA特别高，排在年级顶尖。能保持课内成绩顶尖，并且在课外做到我上面说的那些事，我觉得就非常厉害了。&br&你可以不按照你老师的意思，但大学总得踏踏实实做点事吧。条条大路通罗马，哪一条路走好了都有不错的前景。祝题主度过充实的大学四年。
条条大路通罗马，确实有很多ACM出身的技术大牛，同样也有更多没做过ACM的大牛。搞ACM对于很多人来说确实是一条不错的路，但必须搞ACM这个观点显然是不对的，你如果不感兴趣，可以通过其他的手段提升自己。但有一点要注意，本科阶段要注意内功的修炼。IT行业…
368 人关注
1145 人关注
208 个回答
3426 人关注
183 个回答
1327 人关注
113 个回答
420 人关注

你好，请问林轩田的learning from data数据恢复那本书好的pdf你有么？如能提供，不胜感激

我要回帖

更多关于寒战最后那本书的文章

随机推荐

你好，请问林轩田的learning from data数据恢复那本书好的pdf你有么？如能提供，不胜感激

我要回帖

更多关于 寒战最后那本书 的文章

随机推荐

更多关于寒战最后那本书的文章