大数据文摘

1,157 Flips | 1 Magazine | 3,031 Followers | @11bciv5 | 普及数据思维 传递数据文化

<b>大数据文摘经授权发布</b><p><b>项目开发者:柯振旭</b><p>又是一年n度的找房高峰期,各种租赁信息眼花缭乱,如何快速、高效的找到靠谱的房子呢?<p>不堪忍受各个租房网站缭乱的信息,一位技术咖小哥哥最近开发了一个基于 Scrapy 的爬虫项目,聚合了来自豆瓣,链家,58 同城等上百个城市的租房信息,统一集中搜索感兴趣的租房信息,还突破了部分网站鸡肋的搜索功能。<p>通过这个“秘密武器”,这位技术咖已经使用该爬虫找到合适的住所。<p>不仅如此,还很无私地整理了项目代码,并放上了Github。<p>Github链接:<p>https://github.com/kezhenxu94/house-renting<p>点击<b>“阅读原文”</b>可查看项目介绍,在大数据文摘 …

<b>大数据文摘转载自数据派THU</b><p><b>作者:Dan Clark, KDnuggets</b><p><b>编译:</b><b>顾佳妮、丁楠雅</b><p>本文为你介绍吴恩达新书中的7个使用建议,致力于讲明白机器学习算法是怎样工作的,以及如何构建一个机器学习项目。<p>《Machine Learning Yearning》是人工智能和深度学习界的专家吴恩达写的一本书,这本书致力于讲明白机器学习算法是怎样工作的,以及如何构建一个机器学习项目。这里我们选取了这本书中7个非常有用的建议向大家介绍。<p>人工智能、机器学习和深度学习这些概念在飞速发展同时促使着工业界发生转变。吴恩达是这个领域的领军人物之一,他是Coursera联合创始人,百度人工智能团队的前负责人,以及谷歌 …

Machine Learning

<b>大数据文摘出品</b><p><b>编译:汪小七、张馨月、云舟</b><p>主成分分析(PCA:Principal Component Analysis)非常有助于我们理解高维数据,我利用Stack Overflow的每日访问数据对主成分分析进行了实践和探索,你可以在rstudio :: conf 2018上找到其中一篇演讲的录音。演讲的重点主要是我对于PCA的理解,而这篇文章中,我将主要介绍我是如何实现PCA的,以及我是如何制作演讲中使用到的图表的。<p>rstudio :: conf 2018<p>https://www.rstudio.com/resources/videos/understanding-pca-using-shiny …

<b>大数据文摘出品</b><p><b>作者:魏子敏、龙牧雪</b><p>还记得两个月前英伟达黄教主在硅谷发布的全球最大GPU DGX-2吗?<p>重达350磅,有汽车后备箱那么大!<p>支持如此巨大GPU的计算平台当然也不简单。刚刚,在台湾的GTC发布会上,黄教主将这个被称为全球最强的AI训练器——HGX-2,推向了市场。<b>这是全球首个融合人工智能和高性能计算的计算平台</b>。<p>是的,就是下边这个庞然大物了👇<p>作为一个多功能计算平台,HGX-2的首个计算产品就是今年三月在GTC硅谷大会上亮相的<b>全球最大GPU——DGX-2</b>。<p>黄教主当时称,这一计算平台在硬件和软件上的改进,使得在六个月内,深度学习工作负载的性能提高了10倍。<p>驱动这个“超级计算平台”的是<b>16</b> …

<b>大数据文摘出品</b><p><b>作者:骆利群</b><p><b>编译:王一丁、Shan Liu、小鱼</b><p>AI源于人类大脑的结构,并尝试达到与大脑相当的能力。那么二者的差异究竟在哪里?斯坦福大学神经生物学教授骆利群(Liqun Luo)认为,大脑性能高于AI是因为大脑可以大规模并行处理任务。<p>一起来看李飞飞教授推荐的这篇文章,深入了解大脑与计算机相似性和差异性。<p>人类大脑的构造十分复杂,它由大约1千亿个神经元组成,并由约100万亿个神经突触连接。人们经常将人脑与计算机——这一有超强计算能力的复杂系统相比较。<p>大脑和计算机都由大量的基本单元组成。神经元和晶体管,这些基本单元互相连接构成复杂的网络,处理由电信号传导的信息。宏观来看,大脑和计算机的 …

Deep Learning

清华区块链公开课又开讲啦!这一讲的嘉宾是中国人民大学金融科技与互联网安全研究中心主任、区块链大数据与监管科技实验室主任,杨东教授。大数据文摘为不能来到现场的同学们带来了讲座实录,请大家来先睹为快吧!<p><p>区块链系列公开课由清华x-lab及校研团委创新创业中心联合打造,面向清华大学全体学生、教师、校友。戳链接回顾之前课程内容:<p>IBM任常锐:让区块链真正为商业所用 | 清华x-lab公开课<p>Node Capital王明远:区块链为什么能改变世界 清华x-lab公开课<p>火币袁煜明:区块链的本质、意义与商业体系设计 | 清华x-lab公开课<p>斯坦福大学终身教授张首晟:In Math We Trust | 清华x …

<b>大数据文摘编译作品</b><p><b>编译:王梦泽、笪洁琼 、夏雅薇</b><p>逻辑回归的结果很难解读,在真实的商业环境中考虑到你要跟你的老板或同事解释模型的时候,有可能自己都无法解释清楚,所以慎用纯粹的逻辑回归,尤其是对于初学者来说,这是作者对逻辑回归的建议。<p>近期,数据科学圈出现了不少“数据科学家应最先学习逻辑回归”的声音。作为一名与市场营销人员、销售人员、工程师一起工作的“孤立的”统计学家,我深深反对这一说法!<p>有许多工作尤其是生物统计领域都要求从业人员能够掌握并运用逻辑回归的知识。如果你在大学曾学过一些逻辑回归,这会对你很有帮助,但对于初学者来说,它并不是入门课程。<p>在我的职业生涯中,我可以灵活地选择使用哪些方法和工具,如 …

<b>本文授权转载自DeepTech深科技</b><p>未来几年甚至十几年,科技的发展方向到底在哪里?科技又是如何在潜移默化中改变我们的生活方式?什么样的企业才算是聪明的企业?<p>自2010年开始,《麻省理工科技评论》每年都会选出50家公司,作为科技创新的代表。这份榜单的名字略有变化,在2013年之前,它叫“全球50大创新公司”;2013年,它叫“全球50大颠覆公司”;2014年至今,它叫“全球50大最聪明公司”。<p>如何定义“聪明”的公司?听起来很难。但当你看到一家聪明的公司时,你就知道了。当这样的公司将一项真正创新的技术商业化时,不可思议的事情就发生了:市场中领导者的地位得到巩固或被别的公司所取代。竞争者们必须重新定 …

5月28日,中国科学院第十九次院士大会、中国工程院第十四次院士大会在京西宾馆召开,这是十九大后我国科技界召开的一次盛会。<p>习近平出席会议,并发表讲话。<p>在会议上,习近平总结了十八大以来,我国科技事业发展取得的历史成就,并指出了科技领域仍然存在一些亟待解决的突出问题。并表示我国广大科技工作者要把握大势、抢占先机,直面问题、迎难而上,瞄准世界科技前沿,引领科技发展方向,肩负起历史赋予的重任,勇做新时代科技创新的排头兵。<p><p>习近平表示进入21世纪以来,全球科技创新进入空前密集活跃的时期,新一轮科技革命和产业变革正在重构全球创新版图、重塑全球经济结构。<b>以人工智能、量子信息、移动通信、物联网、区块链为代表的新</b> …

<b>大数据文摘编译作品</b><p><b>编译:汪小七、Fei、什锦甜、钱天培</b><p>“人类对周遭世界的认知,只是我们脑海中的一个模型。”<p>——系统动力学之父J.W.Forrester<p>LSTM之父Jürgen Schmidhuber再发新作!<p>这一次,他借鉴了人类认知世界的模式,为机器建造了一个世界观模型。<p>诸多证据表明,人脑为了处理日常生活中的海量信息,学会了对这些时空信息作出抽象化的处理。借此,我们能够在面对周遭复杂的信息时,进行迅速而准确的分析。而我们在当前所“看”到的这个世界,也受到了大脑对未来世界预测的影响。<p>比方说,棒球选手可以毫不费力地击中打时速100英里的棒球,正是得益于大脑对棒球运动轨迹的精确判断。<p>那么,我们能不 …

<b>大数据文摘编译作品</b><p><b>编译:杨小咩是小怪兽、张文静、云舟</b><p>虽然一些人坚定的认为,谷歌在其最新的I/O大会上造出了离人最近的AI,但实际上,Google Duplex根本无法通过图灵测试。<p>让我们首先思考这个问题:人类对话的门槛有多高?<p>Google Duplex 赢得的赞赏更多来自其语调的自然,但从谈话的主题毋庸置疑非常低级:虚拟助手通过死记硬背的对话完成了一个理发预约,对话中,自由发挥的空间并不多。<p>对技术的过分吹捧可能更多地说明了,我们过分看低了人类潜能。<p><b>我们看到一个虚拟助手捕捉到了人类行为的一个微小方面,就迅速得到结论:人类已经一无所有了。</b><p>如果图灵测试的目的是模仿人类行为,那么我们可以很简单地通过图 …

<b>大数据文摘作品</b><p><b>作者:魏子敏</b><p>Jeff Bezos对于建设月球城市的执念或许没有Elon Musk的火星殖民计划那么广为人知,但他的确正在一点点展开这个宏大梦想。<p>上周五,在洛杉矶举行的太空发展论坛上,这位亚马逊和Blue Origin的创始人与海外科技媒体GeekWire进行了直接对话,并在谈话中进一步透露了月球殖民计划的细节。<p>图片来自GeekWire:Bezos正在谈论用机器人为人类居住者建造月球城市<p>在接受GeekWire的采访时,Bezos解释说,他希望Blue Origin与美国宇航局和欧空局合作,在月球上创造一个永久性定居点,并且会尽一切努力使之成为现实。<p>如果支持足够,其预计到2020年中 …

<b>大数据文摘作品</b><p>“大数据、互联网要解决的是土地上种出来的东西卖给谁的问题。只有让土地增值,才能让农民回到土地,形成农业产业。”<p>刚刚,马云在今年的数博会上谈起了“脱贫”。<p>5月26日,以“数据创造价值,创新驱动未来”为主题的2018中国国际大数据产业博览会在贵阳开幕。今天上午,阿里巴巴集团董事局主席马云出席高端对话环节“大数据助力精准扶贫,互联网主力军征战脱贫攻坚主战场”,并发表了演讲。<p>马云表示,要消灭贫困,需要从根源入手,解决教育的不平衡、医疗健康资源的不充分等多方面问题。他号召阿里员工参与公益,从公益中了解自己有什么、要什么和放弃什么,并相信只有这样企业才能持久发展。<p>他还感慨道,中国14亿人要全 …

<b>大数据文摘作品</b><p><b>作者:闫雨莹</b><p>我们正处于新技术革命的边缘,它可以改善我们生活的方方面面,为美国工人和家庭创造巨大的新财富,并在科学,医学和沟通领域大胆开创新领域。<p>——美国总统特朗普<p>在争夺人工智能发展的优势上,各国政府都不遗余力。<p>美国也不例外。5月10日,按照惯例,美国政府在白宫举办了一场人工智能(AI)科技峰会,一百多位高级政府官员,顶级学术机构的技术专家,工业研究实验室负责人以及应用人工智能技术的美国商业领袖参与了此次峰会。<p>在这次峰会中,与会者讨论了人工智能研发(R&D)、员工队伍发展、AI创新监管障碍以及AI部门特定应用等交叉问题,涵盖了食品和农业,能源和制造业,金融服务,医疗保健,运输和物流 …

<b>大数据文摘作品</b><p><b>编译:Zhifu、张文静、王一丁、惊蛰、夏雅薇</b><p>一个优秀的技术领导不仅可以帮工程师的工作效率提高10倍,还能够把自身的能量带给团队里每一个成员。那些幸运的工程师们在这些技术领导者的指导下不仅会发现自己事半功倍,而且可以体验前所未有的系统化支持。<p>对你来说,工作是什么?是养家糊口的工具,还是享受人生的方式?<p>而对于大多数工程师来说,想要把工作作为享受人生的方式,你需要有一个优秀的技术领导者。<p>技术领导者会挡掉所有无意义的“工作”,大大加快在有意义工作上的工作效率,从此整个团队会变得无比和谐。<p>下面这篇文章来自于一名就职于Webflow的工程经理所撰写的技术指导手册,主要内容包括:<p>什么叫做成功 …

5月26日在2018贵阳数博会上,复旦大学联合提升政府治理能力大数据应用技术国家工程实验室、国家信息中心数字中国研究院发布了《2018中国地方政府数据开放报告》(以下简称《报告》)暨开放数林指数。<p>《报告》对我国46个省级、副省级和地市级政府的数据开放情况进行了评估,包括8个省级地方政府,38个副省级与地市级地方政府。评估指标体系共包括数据层、平台层、准备度三个维度,每个维度下设有多级指标。<p>在所有的地方平台中,<b>表</b><b>现最好的是上海、贵阳两地。在省级行政区排名中,指数得分最高的是上海,其次是贵州、山东、广东、北京。</b>这些地方都是我国地方政府数据开放的引领者。<p>更多详细信息请看本文<b>“开放数林指数分值与分析”</b> …

大数据文摘重磅译制:最In的无人车课程视频+中文字幕!<p>本周更新至:第三讲(1)<p>卷积神经网络:驾驶任务端到端学习<p>Convolutional Neural Networks for<p>End-to-End Learning of the Driving Task<p>时长30分钟<p>带有中文字幕<p><b>马上观看</b><p><b>▼</b><p>点击文末阅读原文,即可免广告观看<p>这门【深度学习与自动驾驶】课程由麻省理工MIT开设,话题前沿且实践性质很强。课程首先引导大家了解深度学习,之后大家可以自己“造”一辆无人车(的算法🌚)!<p>课程面向机器学习<b>初学者</b>,但已经有大量经验的研究人员也能从课程提供的从实践出发的深度学习方法和应用中受益。<p>课程主讲Lex Fri …

<b>大数据文摘授权转载自腾讯研究院</b><p><b>翻译:丁晓东</b><p>经过欧盟议会长达四年的讨论,欧盟《一般数据保护条例》(General Data Protection Regulation,简称GDPR)终于将在2018年5月25日也就是明天生效。<p>在一些媒体的报道中,这一保护条例被称为“史上最严数据保护条例”。尽管这是现代社会保护个人数据与安全迈出的重要一步,但在国内外的许多媒体报道中,GDPR中的一些条款被误读或是错误理解引起了一些用户、公司、学者的恐慌。<p>在GDPR即将正式实施之际,严谨的阅读并理解GDPR的原文显得尤为重要。<p>由于篇幅原因,我们在本文仅给出中文版的上篇,下篇的阅读请前往同期推送的下一条图文。<p><b>一般数据</b> …

<b>大数据文摘授权转载自腾讯研究院</b><p><b>翻译:丁晓东</b><p>经过欧盟议会长达四年的讨论,欧盟《一般数据保护条例》(General Data Protection Regulation,简称GDPR)终于将在2018年5月25日也就是明天生效。<p>在一些媒体的报道中,这一保护条例被称为“史上最严数据保护条例”。尽管这是现代社会保护个人数据与安全迈出的重要一步,但在国内外的许多媒体报道中,GDPR中的一些条款被误读或是错误理解引起了一些用户、公司、学者的恐慌。<p>在GDPR即将正式实施之际,严谨的阅读并理解GDPR的原文显得尤为重要。<p>由于篇幅原因,我们在本文仅给出中文版的下篇,上篇的阅读请前往同期推送的上一条图文。<p><b>第五章 </b> …

<b>大数据文摘作品</b><p><b>编译:闫雨莹</b><p>斯坦福大学ML Group昨天发布了一个新的数据集——MURA。据官网信息,这一数据集由自12,173名患者的14,863项研究组成,总共包括了40,561张多视角肌肉骨骼X光片。<p>MURA官网链接:<p>https://stanfordmlgroup.github.io/competitions/mura/<p>此外,斯坦福还在这个数据集的基础上发布了举办深度学习挑战赛的消息,目的十分明确:你的算法能不能打败放射科医生?<p>不管是数量还是质量,这一最新发布的数据集都非常优质,斯坦福教授吴恩达也在推特上推荐了这个比赛。<p>目前,肌肉骨骼疾病影响全球超过17亿人,斯坦福这一数据集旨在帮助医学 …

<b>大数据文摘作品</b><p><b>作者:郑璇真</b><p>继上周密集更新的推特小课堂后,时刻操心着大家学习的Ian Goodfellow老师又发推文给大家开小灶了!<p>先来回顾一下上周的推特小课堂:<p>学界 | Ian Goodfellow发推讲2个机器学习黑魔法,教你如何推导公式<p>学界 | Ian Goodfellow推特小课堂又开课啦:数学求导的小技巧<p>昨天,Ian Goodfellow在Deep Learning and Security worshop(IEEESSP)上发表演讲,主题是对抗性实例安全性研究及其未来发展的方向。秉着“大家good才是真的good”的精神,我们的goodfellow随即在推特上给大家分享了这次演讲的 …

<b>大数据文摘作品</b><p><b>编译:傅一洋、惊蛰、张南星、小鱼</b><p>别忘了,在曾经的淘金热中,赚大钱的不仅是淘金者,还有那些给淘金者卖矿泉水的人。<p>AI淘金热潮中,企业和国家都在砸大价钱希望抢占市场:<p>谷歌、亚马逊、微软和IBM在2016年砸下超过200亿美元来打这场硬仗。各个企业一边争先恐后地观察对手,确保能抢先意识到AI的生产力优势,一边把眼光瞄准初创公司。<p>中国在AI上投入了大量资金,而欧盟由于担心失去在中美的市场份额,也计划了将差不多220亿美元投资于AI。<p>但正如以往的淘金浪潮一样,最重要的是,<b>谁能真的找到黄金。</b><p>是那些少数敢于创新的巨头企业独占鳌头吗?活跃的初创企业能从中分得一杯羹吗?还是说,提供淘金工具的人获利 …

<b>大数据文摘作品</b><p><b>编译:蒋宝尚、小鱼</b><p>音乐Geek们昨天可能没能睡个安稳觉,最能体现他们创造力的一项能力——编曲技能正在被AI获取。<p>玩儿音乐的人都知道,<b>编曲</b>这项工作被公认为最能够体现艺术家创造力的一项能力。而就在昨天,Facebook AI研究院的发布的最新论文《一种通用的音乐迁移网络》称,他们已经可以通过迁移网络,实现音色和曲风的自动转化。<p>这是什么概念呢?简而言之就是,你随便吹出的一段口哨,已经可以在很短的时间内,被AI转换成为莫扎特风格的钢琴曲,又或者贝多芬风格的交响乐。<p>让我们先来听听下面这段音频,感受一下,一段有节奏的口哨声可以在这个神奇的网络中,变成哪些美妙的乐曲。<p>点击收听☟<p>Facebook …

<b>大数据文摘作品</b><p><b>记者:魏子敏</b><p>5月24日,人工智能创新论坛现场,高通(Qualcomm)对近期在人工智能上的布局进行了一次大盘点。<p>除了几个重磅产品的发布,在合作生态和部门职能设置上,也全面配合人工智能的战略,进行了相关调整。<p>先来看看这几个新消息:<p>与创通联达合作推出Turbo X,加速下一代人工智能驱动的终端发展;<p>推出基于10纳米制程工艺打造的全新Qualcomm®骁龙™710移动平台;<p>携手网易有道推动实现终端侧人工智能应用创新体验;<p>与百度PaddlePaddle展开合作探索终端侧人工智能应用;<p>成立Qualcomm AI Research,将公司范围内开展的全部前沿人工智能研究,进行跨各职能部门的强 …

<b>大数据文摘作品</b><p><b>记</b><b>者:龙牧雪</b><p><b>“我们不仅要做物联网;我们要做的是智联网,一个超级大脑。”</b><p>继腾讯要AI in All之后,小马哥今天在腾讯“云+未来”峰会上又提了两个新词:<b>智联网、超级大脑。</b><p>很显然,智联网的概念是对AI in All的一种具体解读,即,使万物在智能环境下皆可连。腾讯的IOT布局也浮出水面,以“三张网”的形式:<b>人联网、物联网、智联网。</b><p>马化腾说,从前,腾讯连接的是人和人,如今要联系人和物,以及企业和政府,最终,帮助各行各业建立“超级大脑”,一个让人工智能无处不在的智能操作系统。借助超级大脑,打破信息孤岛,灵活调配资源。<p>这三张网具体来说是:<p><b>一是“人联网”。</b><p>以互联网为基础的数字平台,正在从“ …

<b>大数据文摘作品</b><p><b>编译:Apricock、笪洁琼 、蒋宝尚</b><p>找不到靠谱数据集?跟着文摘菌探索一个数据科学领域的数据宝藏——Figure Eight平台。<p>找靠谱数据集的痛苦数据科学领域的宝宝们都懂。文摘菌今天强力推荐一个很棒的数据平台Figure Eight。<p>先上网站链接:www.figure-eight.com<p>相比其他数据平台,这个平台的一大特点是,用于标注数据集的模板都可以复制,而且能够在Figure Eight平台扩展其应用。每个数据集里包含了原始数据、工作设计、教程、说明等等。<p>以下是几个被文摘菌选中的优质数据集:<p><b>谷歌数据集Open Images Dataset v4(包围盒)</b><p>Open Imag …

<b>大数据文摘作品</b><p><b>编译:小鱼</b><p>在一些敏感领域使用机器学习,<b>算法的公平性</b>常会引发巨大争议。<p>近期频频登上头条的几项研究大多如此:比如利用算法识别犯罪团伙或者,利用图像识别判定同性恋。<p>这些问题的出现往往是因为历史数据中的偏差特征,比如种族和性别上的小众团体,往往因此在机器学习预测中产生不利的歧视结果。在包括贷款,招聘,刑事司法和广告在内的各种广泛使用AI的领域,机器学习因其预测误差伤害到了历史上弱势群体,而广受诟病。<p>本月,在瑞典斯德哥尔摩举行的第35届机器学习国际会议上,伯克利AI研究协会发布了一篇论文,来试图解决这一问题。<p><p>大数据文摘微信公众号后台回复<b>“公平”</b>下载此论文哟。<p>这篇文章的主要目标,是基于社会 …

<b>大数据文摘作品</b><p><b>编译:张馨月、张文静、钱天培</b><p>2011年末,全球第一门慕课(Massive Open Online Course)正式上线。自此之后,全球700多所大学公开设了公7000多门网课。<p>可惜的是,在这些数以千计的网课中,几乎三分之一的课程已经下架,它们的回归也是遥遥无期。尤其是Coursera在去年关闭了他们的原技术平台后,大量优秀的网课已是“踏破铁鞋无觅处”。<p>好在优秀的课程总还是有人留存。<p>今天,文摘菌就为你带来8门已经在官方下架的神课,为你找到了这些课程留存的视频和文字资料,让你“学来全不费工夫”~<p>非理性行为新手指南<p>这门课的讲师是丹·艾瑞里(Dan Ariely)。如果你喜欢读关于经济 …

<b>大数据文摘作品</b><p><b>编译:Zoe Zuo、张馨月 、小鱼</b><p>大脑精密复杂,被称为“地球上最复杂的生物结构”。马里兰大学工程学院的研究人员采用新计算方法,希望能深入了解听力障碍与神经网络的动态变化之间的关系。<p>作为地球上最复杂的生物结构,大脑是如何让它的神经网络适应新环境的呢?马里兰大学工程学院(A. James Clark School of Engineering)的电气工程师和神经科学家们联起手来研究了这个问题。<p>他们利用信号处理的新技术追踪了大脑在接收到一些“重要的”声音时,例如当接收到有关奖赏(reward)的声音时,额叶皮层(frontal cortex)和听觉皮层(auditory cortex …