victorry
作者victorry·2017-08-15 17:35
系统管理员·中信卡中心

大数据早报:IBM深度学习技术取得重大突破 比特币价格破2万7创历史新高(8.15)

字数 8953阅读 1094评论 0赞 2

『深度学习』IBM深度学习技术取得重大突破 打破FB扩展效率记录

1.jpg

1.jpg

IBM 公司本周宣布,自己成功开发出了一种可以大幅缩短处理海量数据,并得出有用结论时间的全新深度学习技术。

简单来说,IBM 使用的“深度学习”技术是人工智能的其中一个分支,该技术使得电脑可以模仿人脑工作原理,并且已经成为了诸如微软、Facebook、亚马逊和谷歌这些科技企业的关注焦点。消息称,IBM 的目标是将深度学习系统分析数据需要的时间从数天缩短到数小时。

“这些改进可以帮助放射学家根据医学图像更快、更准确地找到病变部位。”IBM 研究所研究员、系统加速及记忆模块总监希拉里-亨特(Hillery Hunter)说道。

截至目前,深度学习主要依靠单一服务器运行,因为在不同计算机之间移动大量数据非常复杂。而且,如何处理在不同服务器和处理器之间的数据同步也是一个问题。

当地时间本周二,IBM 宣布已经成功开发出了能够将这些任务分配到 64 台服务器的软件,而这些服务器最高配置有 256 个处理器,可在数据处理速度方面取得巨大进步。而且,只要是使用 IBM Power 系统服务器的客户以及其他参与测试的技术人员,均可获得这一技术的使用权限。

据悉,IBM 使用了 64 个自主开发的 Power 8 服务器,每一个都将通用的英特尔微处理器和英伟达图形处理器连接起来,并使用快速的 NVLink 连接以促进两种芯片之间的数据流传输。

亨特在接受《财富》杂志采访时表示:“我们的想法是改变训练深度学习模式的速度,并真正提高人们的工作效率。”

对此,Pund-IT 公司创始人查尔斯-金(Charles King)也表示,自己对 IBM 的这一项目印象深刻,他相信 IBM 已经找到了一种“等量扩大”深度学习系统的方法,并通过额外增加处理器的方式大幅提高运算性能。

简单来说就是,将设备的处理器扩容 100% 理论上应该可以获得 100% 的等量性能提升。但实际上,由于复杂的流量管理和连接问题,这种等量增长的效益永远不会发生。

不过 IBM 却表示,自己研发的这一软件系统通过由“加州大学伯克利分校”(University of California at Berkeley)创建的“咖啡因深度学习框架”(the Caffe deep learning framework),成功在 256 个处理器之间实现了 95% 的扩展效率。在此之前,这一等量扩容的记录是由 Facebook 人工智能研究公司创造的,其扩展效率达到了 89%。

所谓的“咖啡因深度学习框架”是在 2013 年由加州大学伯克利分校的贾扬清博士在 Github 上发布。发布伊始,这一框架就得到了广泛关注,该框架以“Layer 层”为单位对深度神经网络结构进行了高度抽象,通过一些精巧的设计显著优化了执行效率,并且在保持高效的基础上不失灵活性。

“IBM 最新 95% 的扩展效率实在太优秀了,我简直不敢相信这是真的。”德克萨斯州奥斯丁市 Moor Insights & Strategy 研究公司总裁和创始人帕特里克-莫海德(PatrickMoorhead)惊讶的表示。

具体来说,IBM 的数据显示该软件可以在 7 个小时内识别 750 万张图片,准确率为 33.8%。在此之前,微软保持的最高准确率记录是 29.8%,但用时则达到了 10 天。换句话说就是,IBM 已经开发出了比现有深度学习技术更快、更精确的技术。当然,这一系统也需要同 IBM 的 Power 系统硬件和集群软件配合使用。

『新公司』做“数据科学家版Office”,「DataExa」希望推进AI平民化

2.png

2.png

科技巨头企业,如Alphabet、Facebook、微软、BAT等掌握了海量的数据,笼络了顶尖科学家,拥有更雄厚的资金实力,成为前沿科技底层技术的主要竞技者,对于创业者而言,这是一个“神仙打架”的赛道。

垂直领域也有应用数据智能的需求,要将前沿科技落地于垂直行业,存在以下难题:

  1. 需要找到有实效的落地场景;
  2. 即懂业务又懂技术的复合型人才一将难求;
  3. 垂直行业的数据源无法打通,“数据孤岛”限制应用;

尽管有Tensorflow,PyTorch,Theano和Keras等开源的机器学习平台,让AI的开发得以部分去中心化,垂直行业的企业要从0到1开发应用仍然有较高的门槛:需要从数据采集开始,再做数据储存、清洗、挖掘,然后才是机器学习、算法选择与调试、模型评估,最后才是产品发布。

能不能有一个工具集成的平台,就像Excel之于财会从业者一样,帮数据科学家省去重复性高、技术含量低的环节呢?

我们最近接触的DataExa,是一家提供“行业+数据智能”解决方案的科技公司。

DataExa主要有两款产品,数据洞察平台DataExa-Insight 以及 认知计算平台DataExa-Sati,借用这两个平台,垂直行业的企业要搭建具体场景的模型或者行业图谱时,可以省去从第一行代码到具体与场景结合的前期准备工作。

DataExa-Insight是一个机器学习和深度学习平台。平台内置了逻辑回归、随机森林、GBDT等40多种常见的机器学习以及100多个神经网络层,包括细化的CNN、RNN、LSTM、RBM等 。算法中参数配置的颗粒度可以做到与微软Azure Machine Learning水平相较的程度。

在现有算法不适用时,DataExa-Insight也支持技术人员自定义算法,可开放接口,提供SDK做二次开发。创始人兼CEO洪万福表示,目前这些知名厂商的产品都不支持在可视化建模平台上自定义算法 。

DataExa-Insight的产品开发基于Hadoop、Spark、TensorFlow等开源平台。市场上也有类似的平台,如阿里云的数加PAI、微软的Azure Machine Learning,与之相比,DataExa-Insight的优势在于跳脱了巨头体系的兼容性——使用通用模型格式,可跨行业重复使用,产品复用度高,研发边际成本可以下降。

另外,大厂商现阶段只支持公有云服务,而DataExa主要提供私有化部署服务。

DataExa-Insight的另一个亮点在于,支持机器学习和深度学习算法的可视化建模和模板化建模,数据分析师工作过程中可以更专注于如何与场景中的具体问题结合。

DataExa-Insight的目标还包括数据科学家和不熟悉技术业务分析师。洪万福表示,因为垂直领域的企业大多初步接触数据智能行业,所以即使提供标准化开发平台,仍然需要定制化地为客户开发解决方案,不过行业的最佳实践可以跨行业应用。DatExa-Insight在公安反恐、消费金融风控、精准营销等领域都有最佳实践模型。

DataExa另一款主打产品是语义计算平台DataExa-Sati,基于自然语言处理、图储存计算、问答系统、推理引擎等技术,挖掘非结构化、半结构化数据,帮助用户建构行业知识图谱的平台。

DataExa-Sati类似的产品有Spark GraphX、Palantir Gotham、IBM Watson、IBM-i2 Analyze等。相比之下,DataExa-Sati的特点是拥有超过150+功能的图计算引擎,以及类似Wolfram|Alpha的计算推理引擎。

DataExa-Sati可应用于公共安全情报分析、金融征信、反欺诈、各行业用户画像与精准营销、复杂社交网络图谱等。

洪万福表示,公安反恐和金融是DataExa应用比较成熟的领域,市场推广方面主要通过与渠道商合作。

DataExa创始人兼CEO洪万福曾任清华同方软件出口首席架构师、戴尔高级架构师、科宇集团副总裁。团队其他成员还包括微软剑桥研究院博士后、剑桥大学机器智能博士、博士后等。

DataExa此前曾获得千万级天使投资。

『新科技』最新一代Eagle Prime机器人登场 9月大战

还记得在两年前,美国 MegaBots 曾经向日本水道桥重工下战书,并邀请对方进行一场”真机械人大战”,在今年 4 月他们更正式宣布赛事将会在 8 月举行。只可惜来到官方又带来坏消息,由于场地及搬运方面仍出现问题,所以比赛需要再稍为延迟到 9 月才能举行。

3.jpg

3.jpg

MegaBots 表示比赛举行时间之所以一拖再拖,最主要是由于寻找合适场地比预期困难,除了需要符合当地法例外,机械人对战时亦有可能会破坏场地的设施,再加上之前物色好的场地无法将机械人搬运过去,以及没有足够供电设备,所以之后又要寻找另一新场地。虽然现时场地问题基本上已经解决,但如今则轮到水道桥运送机械人出现问题,由于无法确保可以在本月内运送到,因此双方决定同意将比赛时间推迟到 9 月。此外,由于机械人对战时有一定危险性,故当日不会开放公众观战,而只会在 YouTube 及 Facebook 直播赛事。

4.jpg

4.jpg

要多等一个月才可看到这场世纪大战,但在宣布延期的同时,MegaBots 亦公开了他们的参战机械人片段。据报今次这部 Eagle Prime 是其第三代机械人,虽然外型与最初公布的 Mark II 相似,但却可以看到其外型设计已有所改善,而且双手的武器亦有所不同。MegaBots 表示 Eagle Prime 开发费用高达 250 万美元,高 4.9 米,重量达 12 吨,配备 430 LS3 V8 引擎,最高时速达 16 公里,而驾驶舱则可容纳两人,一人负责驾驶移动,另一人则控制武器,右手配备利爪作为武器,而左手的炮管则可发射出时速 240 公里的漆弹。

『融资』“合享新创”获数千万A轮融资,继续打造中国的专利数据库

日前,“合享新创”正式对外宣布,已获得数千万元的A轮融资,投资方为北京市重点产业知识产权运营基金。

公司创立于2011年9月15日,并在2017年3月1日正式成立集团,业务线也从专利数据库拓展到了咨询服务、合享网、科技专利金融平台、合享资本五大模块。

专利数据库可以说是整个集团最基础的业务。首先,合享会从各个国家的知识产权局采购数据,然后进行结构化深加工,把数据基于专利纬度做关联。因为专利中包括说明书等复杂内容,所以关联过程还会用到语义理解、机器学习、深度挖掘等技术,基于这些支撑了incoPat科技创新情报平台、incoMonitor合享创新监测系统、incoIndex合享创新指数、incoIdea合享智慧APP等系列产品。企业客户可以通过平台查询、监控专利,以及掌握市面上的热点趋势。

例如,当用户输入“华为”进行专利信息搜索时,平台能自动显示的除了“华为技术有限公司”外,还会呈现“深圳华为技术有限公司”等子公司旗下的专利信息,并可看到哪些专利涉及诉讼和交易。专利的基础信息由机器抓取,而将大公司的各子公司旗下的专利技术聚合在一起和涉及诉讼的各专利间的关系则是由人工进复核。并且,合享新创会为每条专利信息进行评级,判定每条专利的价值度。目前,数据间的关联聚合是根据专利线索,而之后合享会跟天眼查合作,加入工商、企业年报等其他信息纬度。

根据“合享新创”执行总裁何佳透露,专利数据库已经收录了全球100多个国家、超过1.1亿条的专利和科技文献数据,并支持中英双语的语义检索。这块业务也是集团收入的主要来源,企业根据SaaS付年费,平均客单价在5万/年,已有近1000家付费企业,其中不乏海尔、联想、海信、松下、格力、三星、百度、小米、oppo、中国商飞、中国石化、南方电网、京东、360、汉能、吉利、比亚迪等知名企业。另外,在国内排名前100的专利事务所中,大概也有三分之二是合享的客户。

在专利数据库的基础上,“合享咨询”主要针对政府、企业、科研院所、金融机构等客户提供咨询服务,比如说,帮助政府做多维度区域对比分析,了解驱动各行业的创新专利,便于决策者引入相关技术。同时,还给政府、企业客户提供培训,给到整体的解决方案。

“合享网”还在开发中,目前看上去类似一个专利资讯平台+社区,何佳的设想是,未来可以帮企业找到所需的专家人才等,像专利众包一样。

至于“科技专利金融平台”,定位做一个专利托管及交易平台,由平台进行专利买卖双方的撮合交易。据悉,平台处于起步阶段,还没有实质交易。

最后一块业务“合享资本”主要是投资相关,合享利用自身的系统发掘好的专利标的进行财务投资。例如,最近投资了一个碳纤维相关的企业,在其下一步的研发中,合享还会利用自身数据积累充当“科研助理”的角色。

据了解,合享新创在全球设立了14个办公室,包括台湾、日本、韩国、德国等。 团队有130多人,其中60多名为技术人员,剩下的大多为服务人员,公司目前已实现盈亏平衡。而同一赛道上的,还有36氪此前报道过的“智慧芽”。

『比特币』大赚!比特币价格破2万7创历史新高

上周,比特币的价值超 3500 美元创历史新高,但这一纪录已被打破。

昨晚,外媒报道称,周六的交易中,比特币正式突破了 4000 美元,约合人民币 26645 元。

笔者在火币网看到,截至发稿时的实时行情是,比特币的价格站上了 27300 元。

比特币在 2017 年已经翻了两番,八月份增长了约 40%。比特币的市值现在约为 640 亿美元,较上周上涨约 100 亿美元。

其中,交易量最高的是日本,占比 46%,其次是人民币和韩元。

目前,比特币分成原始版和新版两个版本,后者名为“比特币现金(BCC)”,专门用于在网上买卖商品。

6.png

6.png

7.png
7.png

『物联网』和手机无关!安卓8.0 Beta 5版本突然发布:物联网系统

按照谷歌公开的资料,Android O(安卓 8.0)准备了四个开发者预览版,上月推送了 Developer Preview 4,接下来就是正式版。

不过在今晨,谷歌突然发布了基于 Android O 的 Developer Preview 5。

仔细了解后发现这是面向 Android Things 设备的版本,也就是物联网超低功耗操作系统,此前我们针对的主要是平板和手机。

DP5 的主要作用在于方面开发者进行 API 调试和硬件兼容性测试,谷歌承认,该版本仍存在一些稳定性 BUG。

值得一提的是,按照爆料大神 evleaks 的说法,Android O (安卓 8.0) 正式版将于 8 月 21 日推送到 Pixel 设备。

8.jpg

8.jpg

9.png
9.png

『大公司』HTC公布二季度财报 已连续九个季度亏损

8 月 14 日,HTC 刚刚公布了 2017 年第二季度财报,而根据财报内容来看,HTC 已经连续九个季度处于亏损状态。今年第二季度,HTC 净亏损额为 19.5 亿新台币(约合 6423 万美元),与上一个季度的 20.3 亿新台币(约合 6687 万美元)亏损额相比稍有缓解,环比降低了 3.9%。二季度 HTC 股价每股收益为 2.37 元新台币,与第一季度的 2.47 元新台币相比略有降低,毛利率从 16.3% 降至 13.7%。

不过 HTC 表示,公司二季度的营运支出降至 44 亿新台币,低于上季度的 47 亿新台币和去年同期的 64 亿新台币,主要原因就是公司进行了资源重组,优化管理流程。

整个 2017 年上半年,HTC 的净亏损总额为 39.83 亿新台币(约合 1.311 亿美元),同比下降了 30%。

HTC 最新的旗舰智能手机 U11 最近在市场上非常受欢迎,其中名为 Edge Sense 的触控边框功能受到很多用户的追捧。只需要轻轻按压手机的侧面,就可以非常快捷的开启指定应用程序。同时 Edge Sense 功能还将继续出现在 HTC 下一款中端产品 U Life 11 的身上。这款新机预计在今年年底亮相,配备 1080×1920 分辨率的 5.2 英寸显示屏,同时搭载高通骁龙 630 处理器。

分析人士预测,由于 7 月销售情况持续低迷,在 HTC 下次公布第三季度财报时,亏损额会继续上升。从 2016 年第三季度到 2017 年第二季度这段时间里,HTC 的营收下降了 10.16%,销售额下降了 2.06%。今年 7 月,HTC 的营收为 61.9 亿新台币(约合 2.039 亿美元)。

『融资』用AI提供社交数据分析服务,Converseon获500万美元A轮融资

11.jpg

11.jpg

Converseon是一家社交及人工智能语音技术公司,近日它宣布获500万美元A轮融资,投资方为一群私人投资者。加上之前的种子轮融资,它的融资总额已经达到750万美元。

同时这轮融资还将帮助它推广其人工智能支持的SaaS技术Convey.AI和用户分类平台Conversus。其中Convey.AI曾获得过不少奖项,它在2010年入选过Forrester Wave,在2012年和2014年入选过Strong Performer。这种人工智能技术还拿过Dataweek社交数据挖掘方面的最佳创新奖。

Converseon的深度见解解决方案采用了受众广告活动分析及社交品牌追踪方面的技术,这轮融资将帮助这种解决方案进一步实现产品化。

在过去的十几年里,这家公司一直是社交智能技术和咨询领域里的领导者,但最近它也在大力开发SaaS产品。Convey.AI是一种专注于自然语言处理的人工智能,它能帮助公司更好地将社交媒体语音中的背景噪音过滤掉,并提供更精准的情感分析。这是一种REST API(即表现层状态转移应用程序接口)。

Conversus平台则完全集成了Convery.AI的技术,它将机器学习的能力直接转交给用户,从而提供更加个性化的数据分析,并让这些数据能更加高效地跨组织使用,且能整合到预测模型中帮助公司增加业务成果。它能以客户忠诚度、客户关怀和客户体验等作为分类依据,快速地建立起客户分类。

『黑科技』DNA也会遭黑客攻击?极端情况下将威胁生命

12.jpg

12.jpg

《大西洋月刊》日前撰文介绍了一个计算机安全团队的实验,称随着基因测序变得越来越普遍,研究人员也面临着安全隐患。以下为原文内容:

DNA 基本上就是一种存储信息的方式。它编写指令,只不过这些指令是用来创造生命的——但是,DNA 也可以用于其他用途。已经有些科学家在使用 DNA 来存储书籍、音乐、GIF,甚至是亚马逊的礼品卡了。而现在,华盛顿大学的研究人员第一次通过在 DNA 中编写恶意程序的方式,入侵了一台计算机。

DNA 链是由四个部分组成的,分别用字母A、C、G和T来指代。而这些字母可以用计算机程序中的 1 和 0 来表示。华盛顿大学的团队将一个恶意软件转化成为了实体的 DNA。当这个“假”DNA 链被测序的时候,恶意软件就启动了,感染了正在对它测序的计算机。该团队就以这种方式入侵这台计算机,掌握了它的控制权。

该团队的领导者是计算机安全专家大仓河野(Tadayoshi Kohno)。他说:“目前发生这种攻击的可能性极小,所以没有必要担心得睡不着觉。但是我们想知道这种攻击是不是可以实现,这会造成什么问题。”

这种入侵会造成什么后果?

随着测序变得越来越普及,这种攻击的后果也会变得越发严重。在 21 世纪初期,要对一个人的基因组测序需要花费大约 1 亿美元,而现在只需要不到 1000 美元。这种技术不仅价格下降了,而且也变得更简单更便携。现在已经出现了口袋大小的测序器,你可以用它来分析空间站、教室和丛林营地里的 DNA。

但是,DNA 无处不在的特性也带来了问题。法医取证时通常会用到 DNA,所以,如果黑客可以攻击测序器或测序软件,他们可以通过改变遗传数据来改变案件的调查过程。如果机器正在处理关于转基因生物的机密数据,黑客就可以盗取到相关的知识产权了。

而且这里面还涉及到个人的遗传数据。美国目前正在给至少 100 万美国人的 DNA 测序,为精准医学铺平道路(根据你的基因来提供治疗方案)。大仓河野实验室的学生彼得·尼(Peter Ney)说:“这些数据非常敏感。如果测序过程被黑,这些数据就可以被盗走,或者遭到修改,让人以为你患有实际上没有的遗传疾病。”

这个实验有作弊的嫌疑?

大仓河野说:“我们希望抢在黑客之前,了解并预测未来 10 至 15 年内哪些新技术会成为热点,”2008 年时,他的团队展示了无线入侵人工心脏,对其重新编程,导致患者病危的可能性。2010 年,团队又展示了入侵一辆雪佛兰英帕拉汽车控制系统,远程操控这辆车的风险。然后他们把注意力转移到 DNA 测序上。

大仓河野说:“其他安全研究人员还没有注意到这个新兴领域,它激起了我们兴趣。我们想知道,你可以用 DNA 生物分子入侵一个计算机系统吗?”

要做到这一点确实是可能的,但也并不容易。为了让这个恶意软件能够奏效,该团队先给一个通常用来分析 DNA 数据文件的程序“加了料”,添加了一个漏洞。然后他们再对这个漏洞进行了利用——这听上去好像是在作弊。

但是团队表示,这些漏洞在 DNA 分析软件中其实很常见。软件工程师在编写这些程序的时候,并没有想过黑客入侵的问题,所以这些程序往往并不安全,很少会遵循数字安全的最佳做法。黑客如果使用了合适的恶意软件,就可能会搞定这些程序以及运行它们的计算机。

真的会有黑客这么做吗?

哥伦比亚大学的遗传学家雅尼夫·埃利克(Yaniv Erlich)说:“我很喜欢这个团队的创造性,但是他们这种利用漏洞的方式是不现实的。实际上,该团队的恶意软件会造成某种小故障,大多数测序中心都可以发现它并修复它。如果黑客的时机掌握得非常巧妙,在这段病毒 DNA 被测序之后立刻发起攻击,那倒是可以控制被感染计算机。”

(今年早些时候,埃利克用 DNA 编写了一个计算机病毒,不过该病毒的目的并不是在 DNA 被测序时自行启动。)

尽管如此,埃利克也认为,DNA 分析程序遵循的安全标准“比较宽松”。他说,有传言称,一家大型研究机构由于在测序器上使用的是默认的管理员密码,遭到了勒索病毒的攻击。

“我希望在未来 5 到 10 年内,人们会重视 DNA 安全性,主动积极地强化系统,防止入侵威胁。”大仓河野说:“现在应该还没有这样的威胁,但我们希望它永远不会出现。”

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广