欢迎访问 中国智慧物流网
  • 主管单位:住建部中国城市科学研究会
  • 组长单位:中物协(北京)物流工程设计院
智慧技术 Products
相关推荐 RECOMMENDATION
发布时间: 2018 - 11 - 12
近年来互联网的高速发展引领人类进入了一个信息量爆炸性增长的时代。每个人的生活中都充满了结构化和非结构化的数据。随着人类生活全面向互联网转移,大数据时代将会不可避免的到来!作为全球互联网的前沿概念,大数据主要包括两方面特征:一方面整个社会的信息量急剧增长,另一方面个人可获取的信息也呈指数增长。从科技发展的角度来看,“大数据”是“数据化”趋势下的必然产物!并且随着这一趋势的不断深入,在不远的将来我们将身处于一个“一切都被记录,一切都被数字化”的时代。 在这种背景下,对大数据的有效存储以及良好地分析利用变的越来越急迫。而数据分析能力的高低决定了大数据中价值发现过程的好坏与成败。本文以大数据时代的数据分析为主题,简明的阐述了国内大数据分析的发展现状、大数据的分析模式以及主要的分析技术、大数据时代数据分析的几个核心概念等相关问题。1.国内大数据分析的发展现状数据分析是数据处理流程的核心,因为数据中所蕴藏的价值就产生于分析的过程。所谓“大数据分析”,其和以往数据分析的最重要的差别在于数据量急剧增长。由于数据量的增长,使得对于数据的存储、查询以及分析的要求迅速提高。从实际操作的角度看,“大数据分析”需要通过对原始数据进行分析来探究一种模式,寻找导致现实情况的根源因素,通过建立模型与预测来进行优化,以实现社会运行中各个领域的持续改善与创新。虽然近两年来“大数据”的概念越来越多的被媒体以及行业提及,但“大数据分析”在国内的发展却仍处于初期阶段。从行业实践的角度看,只有少数几个行业的部分企业,能够对大数据进行基本分析和运用,并在业务决策中以数据分析结果为依据。这些行业主要集中在银行与保险,电信与电商等领域。以银行业为例,目前大型国有银行在其主营业务中均引入了数据分析,但深度尚可,广度不够,尚未扩充到运营管理的所有领域;而中小银行在数据分析方面的人员与能力建设尚处于起步阶段。对于支撑起...
发布时间: 2018 - 11 - 06
作者:Jens Riedl, Andreas Jentzsch, Nils Christian Melcher, Jan Gildemeister, Daniel Schellong, Christopher Höfer, and Peter Wiedenhoff翻译:任晓萌“ 公路货运传统企业可能不愿意进行数字化,但数字化转型的趋势迫在眉睫。在改变了零售、娱乐和旅游等以消费者为导向的行业之后,数字初创企业开始进军商业导向型行业。公路货运是由人工流程主导的高度分散的行业,被数字初创企业视为早该改变的对象。与此同时,新的数字货运商受益于投入资金的显著增长。从2012年1月到2017年9月,风险投资基金对数字化的航运和物流初创企业的投资超过33亿美元。而这些资金的很大一部分被用于公路货运初创企业,其中包括Convoy(美国在线货运平台)、Freightex(最近被UPS收购的英国虚拟物流提供商)和EasyPost(谷歌支持的在线物流提供商)等企业。对于传统企业来说,公路货运一直是一个竞争激烈,利润率低的行业。传统企业现在必须采取行动,抓住数字机遇,否则就会面临利润下滑和销量下滑的风险。数字初创企业可以通过引入新的商业模式和解决长期低效率的问题来稳固企业。”1传统公路货运存在的四大问题数字初创企业正瞄准公路货运行业。传统公路货运存在着问题,尤其在西欧市场上的问题表现得最为明显,这为数字初创企业提供了转变市场的机会(参见图1)。图 1 传统公路货运存在的问题(1)市场高度分化,信息透明度低。在西欧,公路货运行业拥有超过30万家规模从数十亿欧元到小型自驾车运营的公路货运企业。而规模最大的公路货运企业DBSchenker(德铁信可,别名“全球国际货运”)的市场价值份额仅为2.1%(参见图2)。这种严重的市场分化常常促使竞争对手携手合作,以获得规模经济并为客户提供...
发布时间: 2018 - 10 - 17
大数据平台,是关于所有想要创造一个大数据战略,并与他们所掌握的数据相匹配的企业的。企业必须了解如何在一个企业内部使用大数据。为此,我们将在本文中为大家介绍企业大数据使用的八大典型案例。当然,如果您的企业有更多、更好的案例,也欢迎通过文章的评论与我们交流与沟通。真正实时的了解您的客户在过去,我们总是倾向于通过采用小组和调查问卷的方式找出我们的客户在哪里。而当调查结果总结出来时,结果往往已经是过时的了。而利用大数据,这种状况将不再发生。大数据能够帮助企业完全勾勒出其客户的DNA。充分了解客户是有效的与客户达成生意合作的关键。当然,在这一过程中,如果不能很好的保护好客户的隐私,也是很容易走向极端的。但如果企业能够确保客户的隐私不受威胁,大数据可以为企业提供针对个体客户的十分个性化的见解。使用互连的社交媒体数据、移动数据、网络分析和其他数据分析,企业可以充分了解每一位客户,实时的知道他们想要什么,以及何时想要。真正了解您的客户,意味着您可以结合客户的个性化特点,给出有针对性的建议或显示广告。亚马逊已然将这一点做到了极致,他们为客户推荐的产品绝不是一个巧合。亚马逊的推荐引擎完全是基于客户在过去一段时间的购买行为所做的:客户的购物车中所收藏的商品、客户喜欢的商品、其它用户浏览或购买的商品。亚马逊使用的该算法,为每位客户定制了专属的个人主页。利用该策略是:该公司在其第三财政季度期间销售增长27%,达到了131.8亿美元,而去年同期的销售额则为96亿美元。企业共同创建、实时改进和创新产品在过去,我们要与客户会面,与他们一起讨论他们想要什么,向他们展示我们的最终完成的产品。如果客户不喜欢它,您便会有麻烦了。而利用大数据,这一切变成为过去的历史了。大数据分析可以帮助企业更好地了解客户所想要的产品。通过从社会媒体和博客上收集人们如何评价某款产品,能够为企业提供比传统的问卷调查更多的信息。特别是当...
发布时间: 2018 - 09 - 19
编 者 按:近年来,在制造业智能化和全球化发展及电子商务迅速崛起的多重推动下,中国物流行业正在从传统物流向现代物流迅速转型,智慧物流产业迎来发展机遇期。中国仓储与配送协会副会长、国家邮政局发展研究中心学术委员会委员、智慧物流首席特邀专家王继祥是智慧物流概念的提出者和倡导者,本文中他认为物联网、云计算、大数据、人工智能等技术的不断发展,为智慧物流创新发展创造了条件。但我国物流行业发展多层次、多样化的发展现状,要求智慧物流的发展不能搞“一刀切”,要根据经济和社会需求,从信息化和标准化做起,因地制宜、实事求是地推动智慧物流的发展。物联网技术,智慧物流发展的重要基础物流是物质资料从供应者到需求者的物理运动,是运输、保管、包装、装卸、流通加工、配送以及信息等多项基本活动的统一整体。对于物流的概念,王继祥表示:“把物质连接起来的系统是物流,物流的核心是物质资料流动过程中的计划、运筹、控制,因此物流是系统思维的产物,由于物流的连接特点,使得‘信息的连接’成为了推动物流发展变革的核心动力。正是基于此,物联网的发展实现了物流过程中的作业对象、设备等信息的连接,奠定了智慧物流的发展基础。”自2009年,在国家大力倡导下,中国物联网技术呈现发展热潮,在物流领域,物联网技术逐步得到普及应用。基于物联网技术在物流业应用,王继祥在2009年首次提出了“智慧物流”概念,开始大力倡导“智慧物流”。对于智慧物流概念,王继祥认为:智慧物流,指的是基于物联网技术应用,实现互联网向物理世界延伸,互联网与物流实体网络融合创新,实现物流系统的状态感知、实时分析、精准执行,进一步达到自主决策和学习提升,拥有一定智慧能力的现代物流体系。根据智慧物流定义与技术架构,王继祥提出了智慧物流的三大组成体系:智慧思维系统、信息传输系统和智慧执行系统。智慧思维系统是物流大脑,是智慧物流最核心的系统。大数据是智慧思考的资源,云计算是智...
发布时间: 2018 - 09 - 05
1998年,“大数据”概念首次出现在美国《科学》杂志中。近20年来,大数据浪潮一波波向世人扑面而来。有人形容,大数据就像一片无边无际的大海,海面一浪高过一浪,而浪潮之下深不见底。大数据的核心口号是量化世界,量化世界为创构世界奠定了基础。在大数据的基础上,物数据化和数据物化构成循环。这是因为,物数据化事实上就是物信息化,数据物化实质上就是信息物化。随着现代信息技术的发展,创构活动及其产物与人的存在方式越来越密切地联系在一起。这里涉及一个新的重要概念:信息。在控制论创始人维纳看来,“信息就是信息,既不是物质也不是能量”。这个定义看上去像是同义反复,却富有深意。比如,物能复制成本呈正比增加,而信息复制的边际成本递减;物能越分享越少,而信息越共享越多。信息的这些重要性质,在作为样本数据的小数据时,显示不出重要性;而在大数据基础上,则变得非同寻常。在大数据的基础上,信息会对人类的文明发展产生极为重要的影响。面对大数据打开的这扇大门,我们不能不深入思考:这将是怎样的一扇门,又会把我们带进一个怎样的新世界 ■面对一张拍好的平面照片,再要换个角度去观察已不太可能。大数据则几乎保留了全纬度。面对大数据,我们可以从不同的角度进行考察。作为样本数据,小数据是“残缺”的。就像尼采说抽象的概念是“干枯的标本”,样本数据和抽象概念的共同特点都是已经“失活”了。而大数据意味着活数据(动态数据)、全数据。■对于大数据来说,信息是活的,是随着时间而流动的。高速的数据流更能在时间上与现实过程同步,因而跟人类的生存密切联系在一起。不仅如此,只有高速流动的数据,才能提供无限的可能性。以往受速率限制,人们获得的数据和所要反映的内容往往脱节,而数据流的高速率使我们把握对象的手段越来越完善。■有人提出,大数据的价值密度低,数据挖掘相当于“沙里淘金”。其实,对于同一个结构开放的大数据,一些人可能视其为一堆垃圾,...
发布时间: 2018 - 07 - 05
大数据已经渗透到物流领域的各个环节之中,其作为一种新兴技术,它给物流的发展带来了更多的机遇。对物流企业而言,合理地运用大数据技术,对企业的管理、客户关系维护、资源配置等方面都将起到积极的作用,使物流决决策更加高效与准确。随着信息时代数据量的剧增,深化物流管理最为有效的方法是引入数据分析技术,对物流数据进行分析和预测,取代经验论,帮助决策者做出快速、准确的决策。1、物流领域常用数据分析场景梳理我们整个物流环节,数据分析的应用可以分为两个方向,规划和预测。其中规划方向的应用往往是以成本和时间为优化目标,或者是两者综合的多目标优化,在分析过程中我们往往是通过成本构成或者时间构成的角度去寻找他的影响因素,在分析这些影响因素的基础之上,找到合理的变量取值,使得成本最优,时间最少。常用的应用场景包括仓储选址规划、运输路径规划、仓储布局规划。预测方向的应用场景主要包括市场销售预测、采购需求预测、供货周期预测,预测不会直接产生经济效益,它的意义主要体现在在了解未来发展方向和发展量的基础上采取合理的预防措施,比如说市场销售预测是为了合理安排生产和库存,进而获得供应链总体成本的最优。在大数据时代,我们获得数据越来越多,不管是数量上还是维度上,常用数据分析方法也都有可以进一步的拓展,使结果更加的合理准确。2、仓储选址规划常用数据分析方法仓库选址是指在一个具有若干供应点及若干需求点的经济区域内,选一个地址建立仓库的规划过程。合理的选址方案应该使商品通过仓库的汇集、中转、分发,达到需求点的全过程的效益最好。仓储选址步骤如下图所示。常用的仓储选址数据分析方法包括精确重心法、加权评分法、P-中值法、鲍摩-瓦尔夫模型、多级多设施选址模型等等。(1)精确重心法(2)加权评分法(3)P-中值法(4)鲍摩-瓦尔夫模型(5)多级—多设施选址模型3、仓储选址常用方法对比分析由于不同的企业在建设物流配送中心时,对配送...
发布时间: 2018 - 06 - 21
大数据从区域分布、创建年度、投资规模、占地规模、功能分析五个方面入手。近年来,我国物流行业增长迅速,在国民经济中起着举足轻重的作用,从某种意义上讲,物流业的发展已成为衡量一个国家综合国力的重要标志。物流园区是物流业集聚发展的重要载体,经过10多年发展,我国物流园区得到快速发展,产业地位日益突出,对于转变物流发展方式,加快行业转型升级具有重要作用。物流产业大数据平台从区域分布、创建年度、投资规模、占地规模、功能分析五个方面入手,主要针对园区类型、园区地址、创建年度、投资金额、占地面积、服务功能等相关数据进行了具体的分析。区域分布根据平台数据,按照全国31个省市区域进行划分,筛除重复项后共计28个省市,各省市分布的物流园区数量排名情况见图1:图1 28个省份物流园区数量分布图物流园区在28个省市的排名情况如图1所示,从图中可以清晰的看出,东南沿海省市的物流园区数量较多,西部地区分布较少。由此看出物流园区的规划建设与区域经济息息相关,同时高度发展的经济也是物流设施、物流技术不断进步的基础;物流园区的建设要求广泛的市场需求及充足的建设条件,因此大部分物流园区集中在沿海省市。图2 七大经济区域园区数量占比图如图2所示,按照我国划分的七大经济区域,华北地区、华南地区、华中地区、华东地区、东北地区、西南地区、西北地区的物流园区数量占比情况分别为19%、7%、10%、49%、5%、7%、3%。创建年度 对物流园区信息中创建年度进行筛重处理,统计结果如图3所示:图3 1992—2014年物流园区数量分布图根据物流园区成立年份的统计数据可知,1992年至2001年期间,我国正处于物流园区的建设时期,物流园区的企业数量相对较少;从2002年到2014年,经过十多年的发展,初具规模的物流园区越来越多,其园区的基础设施和现代化建设水平也在不断改善。投资规模 按照投资金额的具体分类标准对其进行统计分析...
发布时间: 2018 - 05 - 15
随着大数据的应用范围不断扩大,越来越多的企业开始部署大数据战略。通过大数据技术构建数据中心,挖掘出隐藏在数据背后的信息价值,为企业提供有益的帮助,从中获取利益。企业应该把大数据看做是一项战略资源,在战略规划、商业模式和人力资本等方面做出全方位的部署。什么是物流大数据?所谓物流的大数据,即运输、仓储、搬运装卸、包装及流通加工等物流环节中涉及的数据、信息等。通过大数据分析可以提高运输与配送效率、降低物流成本、更有效地满足客户服务要求。将所有货物流通的数据、物流快递公司、供求双方有效结合,形成一个巨大的即时信息平台,从而实现快速、高效、经济的物流。信息平台不是简单地为企业客户的物流活动提供管理服务,而是通过对企业客户所处供应链的整个系统或行业物流的整个系统进行详细分析后,提出具有中观指导意义的解决方案。许多专业从事物流数据信息平台的企业形成了物流大数据行业。国家出台的政策支持目前,国家出台的与大数据相关的物流行业规划和政策包括:《第三方物流信息服务平台建设案例指引》、《商贸物流标准化专项行动计划》、《物流业发展中长期规划(2014-2020年)》、《关于推进物流信息化工作的指导意见》等一系列政策,将大数据、信息化处理方法作为物流行业转型升级的重要指导思想。  此外,交通运输部正在编制的物流发展“十三五”规划,其中统筹谋划现代物流发展,指出要发展智慧物流,适时研究制定“互联网”货物与物流行动计划,深入推进移动互联网、大数据、云计算等新一代信息技术的应用;强化公共物流信息平台建设,完善平台服务功能。  物流大数据行业的生命周期比较长,一般要在5-8年,前期的数据积累和沉淀耗时耗力耗财。目前,中国物流大数据产业正处于起步阶段,未来2年有望快速发展,率先实现大数据增值。企业如何应用大数据?大数据在物流企业中的应用贯穿了整个物流企业的各个环节。主要表现在物流决策、物流企业行政管理、物流客户...
发布时间: 2018 - 05 - 08
这几年的物流产业......平台中兴之后,百花齐放,但依然前途漫漫快递巨头割据,零担江湖奋战加速,整合并购常态商业蝶变加速,传统物流+新兴物流交替联盟、聚盟,合纵连横,心不齐,区域网络拼接不易科技驱动,细分产业重构,找到物流的增长新G点…..复融供应链联合创始人 副总裁 复融学院执行院长,复旦管院物流与供应链沙龙副秘书长杨斌先生在Logis举办的第三期“经管类师资培训之大数据分析与挖掘”中从产业变革视角和行业整合视角对新商业时代的物流行业应用问题进行了深入解读:物流产业趋势及未来五年后的物流:生态圈的跑马圈地5年后的物流是围绕数据+、快递+、快运+、平台+、商业供应链+这几个生态圈在做的。核心是数据,谁掌握了数据,谁就会在未来的物流商业中掌握更大的话语权,这也正是现在企业对数据守口如瓶的原因。以数据为核心会延展到其他的几个生态圈,比如快递+供应链、快递+快运等等,这些融合会带来新一轮生态圈的跑马圈地,未来物流行业的转型升级也将会出现在这几个生态圈里面。物流的终局:寡头基础设施寡头,百花齐放的新应用我们可以做一个大胆的预测:在未来的某一天,整个物流行业会衍生成几大模块,首先在外部是万物互联的数据包络,以此为基础会出现巨头垄断的基础设施市场,这个基础设施包括:云、网络(实体网络和虚拟网络)、端等全渠道的泛物流基础设施。在此基础之上会衍生出许多面向B/C端的物流应用网络、供应链服务网络等围绕物流用户的个性化服务。物流大数据正在来临更强数据能力:驱动物流转型升级,数据价值有待挖掘为什么越来越重视数据?需要从两个维度来看:第一,从现在看未来,我们要讲究科技管理,要有标准化、结构化、流程化的数据来驱动数据化的持续改善。第二,从未来看现在,要看到未来商业的发展用未来的黑科技驱动物流颠覆,也就是管理科技。更强快的物流响应:数据为网,微数据+大数据双轮驱动在物流领域里面一定是微数据和大数据的...
发布时间: 2018 - 05 - 02
京东X事业部包含有无人车、无人机、无人仓等一系列的智能物流项目,是一个将大数据、人工智能等技术深刻应用的复杂场景。通过大数据技术的不断发展,也将进一步推动物流技术水平,提升效率、降低成本进而优化用户体验。京东集团X事业部自动驾驶研发中心主任工程师——李雨倩大数据如今已经与人工智能、云计算等成为了未来发展的基础性技术。应用的领域也可谓百花齐放,渗透到了我们身边的方方面面。在仓储物流领域,大数据也同样发挥着巨大作用,对于物流的仓库选址、布局、路径规划等辅助了决策的制定。在智慧时代来临之时,大数据的作用更加重要,应用也更加彻底。当京东在2016年5月13日宣布成立X事业部时,京东智慧物流开放平台也随之正式亮相,该开放平台是建立在物联网、云计算、大数据、人工智能等信息技术上,完成智慧物流向全面开放生态的转型升级。X事业部包含有无人车、无人机、无人仓等一系列的智能物流项目,是一个将大数据、人工智能等技术深刻应用的复杂场景。通过大数据技术的不断发展,也将进一步推动物流技术水平,提升效率、降低成本进而优化用户体验。2017年6月18日京东配送机器人在中国人民大学送出日常配送运营的第一单,随着日常配送的不断进行,京东也在测试与应用中积累着大量的实验和应用数据。一旦京东配送机器人、巡检机器人达到规模化运营,京东无人车将会成为大数据认知的一个突破口,而大数据也将成为无人车应用的灵魂之眼。目前,京东以整车集成开发为主,适用于不同场景需求,开发搭载核心技术的功能化产品。在不同场景下,大数据也得到了广泛的应用。由大数据技术引发的无人车新模式京东无人车利用云和端的形态,人工智能和大数据计算从云上获得,当前的感知、交互认知、行为控制和协调在端上。端是无人车本身,无人车是大数据的发生器,靠GPS、摄像头、IMU惯导传感器、激光雷达产生大数据。在京东云计算数据中心,用成千上万台的CPU+GPU服务器架构,通...
热点新闻 HOT NEWS
产品名称

大数据研究常用软件工具与应用场景

发布时间: 2017-05-26
来源:
作者:
点击次数: 32
分享到:

如今,大数据日益成为研究行业的重要研究目标。面对其高数据量、多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应对。工欲善其事,必先利其器。众多新的软件分析工具作为深入大数据洞察研究的重要助力,也成为数据科学家所必须掌握的知识技能。然而,现实情况的复杂性决定了并不存在解决一切问题的终极工具。实际研究过程中,需要根据实际情况灵活选择最合适的工具(甚至多种工具组合使用),才能更好的完成研究探索。

然而,现实情况的复杂性决定了并不存在解决一切问题的终极工具。实际研究过程中,需要根据实际情况灵活选择最合适的工具(甚至多种工具组合使用),才能更好的完成研究探索。

为此,本文针对研究人员(非技术人员)的实际情况,介绍当前大数据研究涉及的一些主要工具软件,并进一步阐述其应用特点和适合的场景,以便于研究人员能有的放矢的学习和使用。

基础篇

1.传统分析/商业统计

Excel、SPSS、SAS 这三者对于研究人员而言并不陌生。

◆ Excel 作为电子表格软件,适合简单统计(分组/求和等)需求,由于其方便好用,功能也能满足很多场景需要,所以实际成为研究人员最常用的软件工具。其缺点在于功能单一,且可处理数据规模小。这两年Excel在大数据方面(如地理可视化和网络关系分析)上也作出了一些增强,但应用能力有限。

SPSS(SPSS Statistics)和SAS作为商业统计软件,提供研究常用的经典统计分析(如回归、方差、因子、多变量分析等)处理。

◆  SPSS 轻量、易于使用,但功能相对较少,适合常规基本统计分析

◆ SAS 功能丰富而强大(包括绘图能力),且支持编程扩展其分析能力,适合复杂与高要求的统计性分析。

上述三个软件在面对大数据环境出现了各种不适,具体不再赘述。但这并不代表其没有使用价值。如果使用传统研究方法论分析大数据时,海量原始数据资源经过前期处理(如降维和统计汇总等)得到的中间研究结果,就很适合使用它们进行进一步研究。

2.数据挖掘

数据挖掘作为大数据应用的重要领域,在传统统计分析基础上,更强调提供机器学习的方法,关注高维空间下复杂数据关联关系和推演能力。代表是SPSS Modeler(注意不是SPSS Statistics,其前身为Clementine)

大数据研究常用软件工具与应用场景

SPSS Modeler 的统计功能相对有限, 主要是提供面向商业挖掘的机器学习算法(决策树、神经元网络、分类、聚类和预测等)的实现。同时,其数据预处理和结果辅助分析方面也相当方便,这一点尤其适合商业环境下的快速挖掘。不过就处理能力而言,实际感觉难以应对亿级以上的数据规模。

另一个商业软件 Matlab 也能提供大量数据挖掘的算法,但其特性更关注科学与工程计算领域。而著名的开源数据挖掘软件Weka,功能较少,且数据预处理和结果分析也比较麻烦,更适合学术界或有数据预处理能力的使用者。 

中级篇1.通用大数据可视化分析

近两年来出现了许多面向大数据、具备可视化能力的分析工具,在商业研究领域,TableAU无疑是卓越代表。

TableAU 的优势主要在于支持多种大数据源/格式,众多的可视化图表类型,加上拖拽式的使用方式,上手快,非常适合研究员使用,能够涵盖大部分分析研究的场景。不过要注意,其并不能提供经典统计和机器学习算法支持,因此其可以替代Excel, 但不能代替统计和数据挖掘软件。另外,就实际处理速度而言,感觉面对较大数据(实例超过3000万记录)时,并没有官方介绍的那么迅速。

2.关系分析

关系分析是大数据环境下的一个新的分析热点(比如信息传播图、社交关系网等),其本质计算的是点之间的关联关系。相关工具中,适合数据研究人员的是一些可视化的轻量桌面型工具,最常用的是Gephi。

大数据研究常用软件工具与应用场景

Gephi 是免费软件,擅长解决图网络分析的很多需求,其插件众多,功能强且易用。我们经常看到的各种社交关系/传播谱图, 很多都是基于其力导向图(Force directed graph)功能生成。但由于其由java编写,限制了处理性能,如分析百万级节点(如微博热点传播路径)关系时,需先做平滑和剪枝处理。而要处理更大规模(如亿级以上)的关系网络(如社交网络关系)数据,则需要专门的图关系数据库(如GraphLab/GraphX)来支撑了,其技术要求较高,此处不再介绍。

3.时空数据分析

当前很多软件(包括TableAU)都提供了时空数据的可视化分析功能。但就使用感受来看,其大都只适合较小规模(万级)的可视化展示分析,很少支持不同粒度的快速聚合探索。

大数据研究常用软件工具与应用场景

如果要分析千万级以上的时空数据,比如新浪微博上亿用户发文的时间与地理分布(从省到街道多级粒度的探索)时,推荐使用 NanoCubes(http://www.nanocubes.net/)。该开源软件可在日常的办公电脑上提供对亿级时空数据的快速展示和多级实时钻取探索分析。下图是对芝加哥犯罪时间地点的分析,网站有更多的实时分析的演示例子。

4.文本/非结构化分析

基于自然语言处理(NLP)的文本分析,在非结构化内容(如互联网/社交媒体/电商评论)大数据的分析方面(甚至调研开放题结果分析)有重要用途。其应用处理涉及分词、特征抽取、情感分析、多主题模型等众多内容。

由于实现难度与领域差异,当前市面上只有一些开源函数包或者云API(如BosonNLP)提供一些基础处理功能,尚未看到适合商业研究分析中文文本的集成化工具软件。在这种情况下,各商业公司(如HCR)主要依靠内部技术实力自主研发适合业务所需的分析功能。

高级篇

前面介绍的各种大数据分析工具,可应对的数据都在亿级以下,也以结构化数据为主。当实际面临以下要求:亿级以上/半实时性处理/非标准化复杂需求,通常就需要借助编程(甚至借助于Hadoop/Spark等分布式计算框架)来完成相关的分析。如果能掌握相关的编程语言能力,那研究员的分析能力将如虎添翼。

当前适合大数据处理的编程语言,包括:

◆ R语言——最适合统计研究背景的人员学习,具有丰富的统计分析功能库以及可视化绘图函数可以直接调用。通过Hadoop-R更可支持处理百亿级别的数据。相比SAS,其计算能力更强,可解决更复杂更大数据规模的问题。

◆ Python语言——最大的优势是在文本处理以及大数据量处理场景,且易于开发。在相关分析领域,Python代替R的势头越来越明显。

◆ Java语言——通用性编程语言,能力最全面,拥有最多的开源大数据处理资源(统计、机器学习、NLP等等)直接使用。也得到所有分布式计算框架(Hadoop/Spark)的支持。

前面的内容介绍了面向大数据研究的不同工具软件/语言的特点和适用场景。这些工具能够极大增强研究员在大数据环境下的分析能力,但更重要的是研究员要发挥自身对业务的深入理解,从数据结果中洞察发现有深度的结果,这才是最有价值的。

(摘自:慧辰资讯HCR 作者:马亮)


  地址:北京市西城区月坛北街25号
电话:010-68519188  010-68519187 
传真:+86 0755-2788 8009
邮编:100834 
Copyright ©2005 - 2013 中国智慧物流网
犀牛云提供企业云服务
X
3

SKYPE 设置

4

阿里旺旺设置

等待加载动态数据...

等待加载动态数据...

5

电话号码管理

6

二维码管理

等待加载动态数据...

等待加载动态数据...

展开