成都监控安装网欢迎你:监控安装、监控摄像头安装、监控器安装、网络监控安装、监控工程;专业承接各种监控安装等弱电工程
诚信 · 专业 · 高效
对于热炒的大数据运用,我主张不纠缠于观点,不纠缠于什么是大数据运用以及大数据运用价值和意义。我只关注,大数据运用究竟有哪些实际运用,大数据运用如何落地。
有很多厂商推出了大数据运用,那么,买一台这样机器就允许解决大数据运用落地的问题吗?两者之间是一个什么关系呢?对此,又学习一下数学中的“充分条件”、“必要条件”和“冲要条件”。
充分条件:假如有事物情况A,则必然有事物情况B,简称充分条件。
必要条件:假如没有事物情况A,则必然没有事物情况B;假如有事物情况A而未必有事物情况B,A就是B的必要而不充分的条件,简称必要条件。
充分必要条件:假如有事物情况A,则必然有事物情况B;假如没有事物情况A,则必然没有事物情况B,A就是B的充分必要条件(简称:充要条件)。简单地说,满足A,必然B;不满足A,必然不B,则A是B的充分必要条件。(A允许推导出B,且B也允许推导出A)
这东西很绕,但也很准确。在我看来,大数据一体机(A)仅仅大数据运用落地(B)的必要条件,而且这个必要条件还仅仅成立一半,也就是说,没有大数据一体机,则必然没有大数据运用落地,这个是不成立的;因为很简单,没有大数据一体机,用户允许自己搭一个平台,加上运用,同样允许实现大数据运用。
假如有了大数据一体机,未必有大数据运用落地,这个是成立的。道理也很简单,大数据一体机仅仅一个平台,没有运用软件,所以只有一个平台,自然没有大数据运用落地的结果。
就连必要条件也都仅仅成立一半,如此说来,大数据一体机是不是太没有价值了?其实,也没有必要如此悲观。
在此,还需要说说什么是大数据一体机?有人说,与数据沾边的都允许称为大数据一体机,如此,这个世界上就没有什么不是大数据一体机了,这是一个被泛化的观点。有很多文章将IBMPureSystems、OracleExadata/Exalogic/Exalytics/SuperCluster/ODA、SAPHANA、IBMNetezza、微软的PDW(SQLServer2018ParallelDataWarehouseAppliance)、EMCGreenplum都称为大数据一体机,应该说,这些属于一体机,与大数据运用有一定关联,但应该也不是大数据一体机。
对于大数据运用,公认有4个“V”(Volume,Variety,Value,Velocity),数据量巨大、数据类型繁多、价值密度低商业价值高和处理速率快。最后这一点也是和传统的数据挖掘技能有着本质的不同。处理速率快并没有一个。
对于海量数据进行快速处理,从技能途径来说,就是并行计算。这需要一定的体系结构支持,以Hadoop最为典型。通过Map/Reduce实现数据的检索和查询。互联网企业对此运用较为透彻,因此,大数据运用在互联网运用比较多数,产品也比较成熟。以Google、百度搜索引擎为例,就是这种架构的典型运用。
Google、百度的搜索引擎首先通过“爬虫”获取数据,这些海量数据会按照分布式的方式进行存储,制作副本(通常Hadoop为3副本);通过Map对这些分布数据、副本进行并行检索,然后Reduce返回并聚合检索结果,这就是一个完整的服务。因此,对于互联网企业而言,依托强大软件开发团队,以及独特商业模式,其大数据运用顺利落地。其实,Google、百度的搜索引擎,就是一种最为典型的大数据运用模式。
对于行业用户而言,想要进行大数据运用,首先需要解决海量数据的分布存储和就近出来的问题,也就是要架构类似Hadoop的分布式数据存储模型,搭建软/硬件平台,对此,目前国内推出的大数据一体机,为用户提供了平台选择。这些大数据一体机进行了充分的软硬件兼容性测试,参数配置合理,因此允许减少一部分工作量。但仅仅有了这个平台还不够,需要用户定制相关的运用软件,这将确定用户大数据运用的方式和实质。从市场看,行业性质的大数据运用软件尚没有成型,更谈不上与大数据一体机的整合运用。因此,大数据运用要落地,仅有大数据一体机平台还不行,还需要运用软件的配合。
在国内,允许看到的大数据运用软件,Splunk是一个,并且已经进入。据说Informatica也有大数据运用软件,但宣传解释的还不多,允许参考的资料有限。
[凌茠]
整理编辑:成都弱电工程专家