专利:结构化大数据通信协议(2)
说明2:数据的唯一性是实现"数据全球通"的基础
在班、组这样的小环境中可以用每个人的姓名而区分出每一个人,然而在全国范围内,由于人数太多,重名的很多,因此仅靠姓名就不能准确无误地识别出每一个人。大数据时代以前的关系数据库中的数据只是应用于某个机构内部,因此各个数据就容易识别,然而如果把关系数据库中的数据放到大数据环境中,那么这些数据就成了不可识别的数据。在大数据环境中,有关人的所有数据都必须含有"×××号",这是为了表明数据的唯一性。
关系数据库用"ID"来表明每张表中的数据的唯一性。关系数据库所考虑的只是一张表中的数据的唯一性问题,而未考虑大数据环境中的数据唯一性问题。例如,在很多医疗信息系统中,只是用"门诊号"、"住院号"来标识患者的信息,而未含有患者的×××号。如果要在国家医疗大数据环境中查询某个患者的病史数据,那么,就会由于患者的数据中未含有×××号而为查询造成非常大的困难,因为患者的病史数据有可能包含在全国97.8万家医疗机构所产生的数百万张以上的表中。
在大数据环境中,每个事物的数据的"数据的唯一性"就是一个非常重要的问题。"数据的唯一性"是确保数据在大数据环境中具有"数据的识别性"的一个关键。例如,在生产厂家、经销商的信息系统中,同一件商品的代号都必须是全球唯一的、统一的、标准的,这样才能确保在大数据环境中数据是可识别的。然而,目前国际上还未做到这一点,各家企业的信息系统都有自己的编码方式,各不相同,针对同一种商品,不同企业的编码是不一样的,这为数据的全球通及大数据分析造成了很大的困难。
合格的大数据应该是:在药店买一盒药,可以根据这盒药上面的唯一的编码而查询到这盒药的整个生产、流通环节各种相关情况,是哪个厂家生产的,何时生产,何时出厂,中间经过了哪几个中间商。
世界经济最需要的是"数据全球通",即全球所有企业的信息系统中的各种数据都可以"互联互通",或者说"全球任何两个企业的信息系统之间都可以及时地发送、接收任何商品的数据。"当前的实际情况是:每家企业都有独有的产品编码规则,当企业接到订单时,还需要手工把订单数据转换为自己的信息系统可识别的数据,然后自己的系统才能处理客户的订单数据,只有极少数的企业的信息系统可以直接处理上游企业发来的数据。这种"全球数据都不通"的现象的根本原因就在于当前的数据缺乏"数据的唯一性",没有国际统一的、标准的商品编码标准为"数据的唯一性"提供支持。
要跟踪一种商品在世界各地的流通情况,"数据的唯一性"是基础。一种商品的数据会出现在全球数百万个企业的信息系统中,只有体现"数据的唯一性"的大数据识别码才能准确无误地从数百万个信息系统中把这种商品的数据识别出来。全球大数据统一编码、解码(可称作为大数据识别码)是大数据中的一项非常重要的工作,也是一项非常复杂的工作。在国际贸易中订单、商品的全球统一编码、解码就非常重要,这是商品"数据全球通"的基础。
对企业而言,在大数据时代,订单、商品数据的国际标准、国家标准、行业标准是全球企业实现"数据全球通"的基础。没有订单、商品的标准,企业就不能进入到大数据时代。
说明3:数据的归属性是区分大数据与小数据的一个关键
如果从关系数据库理论的角度来看,增加"数据来源"会使系统中产生大量的冗余数据。然而,在大数据时代,所要处理的数据来源于数百万个以上的信息系统,因此,就非常有必要说清楚各个数据从何而来,不然,就无法区分众多的数据。在大数据环境中,"数据来源"就是非常关键的数据,也是必不可少的。在大数据中,为每一个数据都增加"数据来源"数据项的目的就是让数据无论在哪里都能独立地、完整地表达出其完整的含义。数据如物,人类社会的各种物都有其主,数据也应有其主。
区分大数据与小数据的一个关键指标就是数据中是否含有"数据来源"。凡是不含有"数据来源"的数据都是小数据,都是不合格的结构化大数据,这是关系数据库高手很难理解的,然而这也是数据库技术人员的思想观念是否已转到大数据时代的一个标志。大数据所面对的是:数十万家以上的单位,数百万个以上的信息系统,数千万以上的表,数万亿以上的数据。在大数据环境中,没有"数据来源"就会引起大混乱。在大数据时代,有了"数据来源"可以大幅度减少编写程序代码的行数,在数据交换时就需要有"数据来源",数据共享时,需要有"数据来源"。
说明4:数据的标准化、规范化是实现万能查询的关键
结构化大数据通信协议是在模仿大脑的记忆、联想、思维的基础上而创立的,开始于1982年,当时是希望计算机能模仿人的大脑的联想功能(即查询)。人的大脑在处理数据时所采用的技术是"超级高保真数据处理技术"。"数据的标准化、规范化是实现万能查询的关键",这需要从人的大脑的超级高保真数据处理技术的角度来理解。目前人们都是从计算机技术的角度来解读什么是"数据",实际上从人的大脑记忆、联想、思维的角度来解读什么是"数据"才是最合适的。
人的大脑是大自然界最优秀的"计算机"。人的大脑中所存贮的才是真正合格的"数据"。人的大脑中的"数据"是"超级高保真数据"。人的大脑中的数据都是模拟数据,几乎是不失真的,是超级的高保真数据,是真正的数据,能非常真实地反映自然界的各种事物,是自然界的各种事物的在大脑中的一个缩影。人的大脑中的数据与数据之间的关系是以事物的自然属性而自然地建立起来的自然关系,可以真实地反映到自然界的各种事物之间微妙关系,这才是大脑具有超强功能的根本。
计算机中的数据是死的,人的大脑中的信息是活的。大脑可以突破时间、空间,随时地激活大脑中的"各种事物",回放过去的各种场景。计算机也可以放电影,但是计算机不能为电影中的各个事物建立联想关系。人的大脑可以由一个场景而联想到另一个场景,计算机就不能。大脑在回忆北京的故宫、长城时,眨眼间就可回忆起在上海的黄埔,又一眨眼就跑到了贵州黄果树。大脑可实现"瞬间数千年,眨眼九×××"。计算机中的数据与数据之间没有什么关系,然而任何输入到人的大脑中的事物的信息,人的大脑都会自动地与大脑中的相关事物信息之间形成联想关系,这种联想关系是根据事物的自然属性而建立的。
人的大脑的超级高保真数据处理技术主要有四种:1、超级高保真数据采集技术;2、超级高保真数据存贮及再现技术;3、超级高保真形成数据与数据之间的关系技术(形成联想关系);4、超级高保真利用数据之间的关系技术(即以联想来处理数据)。
用当前的技术可以比较好地模仿大脑的"超级高保真数据采集技术"及"超级高保真数据存贮及再现技术"。然而现有技术无法全面实现(甚至说根本无法模仿)大脑的"超级高保真形成数据与数据之间的关系技术"和大脑的"超级高保真数据处理技术",这两种技术才是大脑具有超级功能的根本。
超级高保真数据采集技术:大脑是通过视觉、听觉、触觉、嗅觉、味觉、痛觉等感觉器官而采集数据。
超级高保真存贮及真实再现数据技术:大脑不但可以以超级高保真的形式存贮数据,犹如把自然界的事物"搬"到了大脑中,而且还可突破时间、空间使以往的事物随意再现(联想)。大脑中的数据是自然界真实的具体的事物的缩影。
超级高保真建立数据之间的关系技术:大脑不但可以采集、存贮数据,更重要的是,大脑可以自动地让数据在大脑中形成相似联想、接近联想、同时联想关系。大脑中的数据联想关系是根据事物的自然属性而自然地建立的。大脑不只是超级高保真存贮了数据,而且还超级高保真地存贮了数据与数据之间的自然关系。这是现有技术难以模仿的。
超级高保真利用数据之间的关系技术(数据处理技术):计算机所处理的只是数字信号,而人的大脑所处理的全是模拟信号。大脑以相似联想、同时联想、接近联想等方式处理超级高保真的模拟数据(即大脑思维)。现有技术根本无法全面模仿这种技术,只能局部模仿。
下面用事例比较详细地说明"大脑的超级高保真数据处理技术"。主要说明:自然事物、事物的属性、大脑根据事物的属性而进行联想、推理,以及数据与数据之间的联想关系是根据事物的自然属性而建立的。
1、"人可以通过听声音而判断出你是在敲铁块,还是在敲木头。"这是因为,在人的大脑的记忆中,敲铁块发出的声音已非常自然地与铁块联系在一起,敲木头的声音已非常自然地与木头自然地联系在一起,这些信息都是人们在日常生活中所接收到的。因此,人们可以通过声音而联想到相应的事物。计算机也可以存贮音像文件,然而计算机不能实现声音与图像之间的自然联系,也不能灵活地识别声音和图像。
2、"我在手中轻轻地把松花蛋抛起几次,就可以判断出这个松花蛋是不是好的。"这是因为好的松花蛋在手中轻抛时,手掌就会感到一种轻微的颤动,而生鸡蛋、熟鸡蛋就不会产生颤动,坏的松花蛋也不会产生颤动。在我的大脑的记忆中,颤动已与松花蛋自然地建立了联系。
3、"买鸡蛋时,把鸡蛋拿在手中轻轻地摇一摇就可以判断出鸡蛋的好坏。"坏鸡蛋,或者说放时间长的鸡蛋,用手轻轻地摇一摇,鸡蛋里面的蛋黄、蛋清就会动,而好鸡蛋中的蛋黄蛋清就不会动。在我的大脑记忆中,这些有关鸡蛋的信息,已自然地与鸡蛋的好坏建立起了联系。
4、"看见窗外树在动,就知道刮风了。"人的大脑中已存贮了风吹树动的信息。
5、"看见窗外的树在动,就知道那是有人在摇树。"因为人摇树与风吹树是不一样的。风吹树,很多树都动。人摇树,只有一棵树在动,其它树不动。而且人摇树引起的树动,与风吹树引起的树动是有差别的。
与人的大脑相比,关系数据库中的数据几乎是百分之百的失真数据。关系数据库是人为地为数据建立关系,关系数据库理论认为这是关系数据库的最突出的优势,然而这才是关系数据库的最致命的缺陷!因为,人为地为数据建立关系,破坏了自然界的事物之间本身的自然联系。关系数据库不能象人的大脑那样根据事物的自然属性而建立联系。关系数据库的一个优点是数据冗余非常小。然而这也是关系数据库的致命缺陷!因为关系数据库在降低了数据冗余的同时也导致数据严重失真。严重失真的数据就不能根据事物的自然属性而自然地建立关系。
关系数据库把数据存贮在不同的表中,这样就割裂了事物与事物之间的自然属性之间的关系。关系数据库把同一类事物的数据存贮在同一张表中,不同类的事物的数据存贮在不同的表中。大脑是根据事物的自然属性而对事物进行分类,事物是不是同一类,由事物的自然属性决定,拥有相同属性的事物就是同一类事物。塑料盆、塑料杯子、塑料袋子、塑料桶,形态各不相同,大脑是根据塑料的自然属性而把它们归为一类。对于塑料杯子、玻璃杯子、钢杯子,大脑是根据"杯子"的自然属性而把它们归为一类。大脑中的数据都在同一张表中,大脑根据事物的自然属性就可以非常灵活地对各种数据进行分类。
"数据"并不只是一个代号、符号,真正的"数据"应该是自然界的具体事物的缩影。人的大脑可以把敲铁块所发出的声音自然地与铁联系在一起,关系数据库就不能让"数据"实现这样的自然联系。
结构化大数据通信协议模仿了大脑的超级高保真数据处理技术。结构化大数据通信协议就是要坚决铲除关系数据库中的"人为关系",让数据独立地、自然地根据事物的自然属性而建立"自然的关系"。关系数据库中的关系是人为建立的,破坏了事物之间的自然关系。要想使计算机接近人的大脑的超级思维功能,就必须象大脑那样使数据尽量地少失真,使数据能够根据事物的自然属性而建立自然的关系。也必须坚决地铲除人为地为数据建立的关系,因为人为的关系肯定会破坏数据与数据之间的自然关系。
计算机中的"数据"的概念非常狭隘。"数据"不应该只是"数字"、"代号",而且还应该是自然界的事物的真实反映,更重要的是也应该反映出"数据"与"数据"之间的自然关系。计算机中的"手机"只是数字,而人的大脑中的"手机"却是真实的"手机"的真实的反映,大脑通过视觉、听觉、触觉接收到了海量的有关"手机"的各种各样的信号。合格的"数据"应该是失真程度最少的,能够比较全面地反映具体的事物,也能真实反映出事物之间的自然关系。关系数据库中的数据不能真实地反映出数据与数据之间的自然关系。数据与数据之间的关系绝对不能人为地建立,而应该是由事物本身的自然属性而自然地建立关系。结构化大数据通信协议是通过一定量的"数据冗余"而使数据尽量地少失真,使"数据"与"数据"之间自然地根据事物的自然属性而建立"自然的关系"。
"信息系统名、数据库名、表名、字段名"要用标准化的、统一的、规范的自然语言,尽量不用代码,以便实现"联想"。信息系统的名称、数据库的名称、表名、字段名都是非常重要的事物属性,都具有重要含义。关系数据库系统的设计人员习惯于用代码、英文缩写、汉语拼音缩写作为数据库名、表名、字段名。这就导致普通用户看不懂关系数据库中的数据。关系数据库忽视了这种信息,因为它所处理的是小数据。在大数据环境中,这些信息就是非常重要的,不能缺省。
在结构化大数据通信协议中,为了使数据具有独立性、完整性、可识别性,在每个数据中都增加了"信息系统的名称、数据库的名称、表名","信息系统的名称、数据库的名称、表名"实际上是事物的"分类",或者说是事物的属性。这种做法是关系数据高手所难以理解的、不可思议的,因为这种做法增加了大量的数据冗余。结构化大数据通信协议在"数据冗余"与"数据的独立性、数据的完整性、数据的识别性、数据与系统的耦合度"之间选择后者。其目的是让不懂技术的普通人也能看懂数据的真实含义。
关系数据库的数据冗余非常少,但其代价是,不懂技术的普通人看不懂关系数据库中的数据,关系数据库中的数据只能存贮在相应的数据库中,一旦脱离了相应的数据库就变成了无意义的数据。关系数据库中的数据需要通过大量的应用程序的翻译才能让普通用户读懂。
如果数据库中的数据都是标准化的、规范化的,那么,这些数据就可以自然地根据"万能数据结构表"中的"事物属性"和"事物属性值"而自动地联立起自然的"联想"关系(通过索引而建立)。由于利用结构化大数据通信协议所建立的各种信息系统所产生的数据全部存贮在一张,或若干张结构完全一样的"万能数据结构表"中,所以可以很容易地编写出通用的"万能查询"工具。例如,如果全国的各种医疗信息系统都是用结构化大数据通信协议而建立的,那么就可以通过患者的×××号而方便地从国家医疗大数据中心而"联想"(查询)到患者的病史数据。因为患者的病史中的每条数据中都含有×××号(大数据识别码),通过患者的×××号就可以"联想"到与患者有关的所有数据。而当前的各种医疗数据中不一定含有患者×××号,所以从全国各家医院的信息系统中查询患者的病史数据就非常困难。
结构化大数据通信协议之所以用大量的"数据冗余"而使数据满足12个技术特性,其根本目的就是为了使数据成为"高保真的数据","数据冗余"弥补了数据的失真,只有"高保真的数据"才能使信息系统可以象人的大脑那样实现"超级高保真数据处理"。
说明5:不必进行ETL转换即可高效挖掘并可实现万能查询
要对当前的全国的医疗数据进行挖掘将是非常困难的,原因在于当前的各种信息系统中的数据不标准、不规范。例如:医疗行业有数百万张表,数千亿条记录,各表的结构各不相同。对如此之多的结构各不相同的表中的数据进行挖掘、查询,需要编写大量的程序。如果全国的各家医疗机构的各种信息系统全部是按结构化大数据通信协议而设计,那么对这样的信息系统所产生的数据进行挖掘、查询将是很容易的。因为这些信息系统全都采用"万能数据结构表",其中的数据全是标准的、规范的、统一的。
表五:两种方法的数据挖掘、查询效果对比表
序号 | 对比内容 | 用关系数据库而建设的当前的 全国医疗的各种信息系统 | 用结构化大数据通信协议而建设的全国医疗的各种信息系统 |
1 | 表的数量及结构 | 数百万张以上的表,各表结构各不相同。 | 数百万张表,各表的结构完全相同,全部采用"万能数据结构表"。 |
2 | 数据量 | 数千亿条 | 数千亿条 |
3 | ETL、数据挖掘 | 因各家医疗机构的数据全都不标准、不规范、不统一,ETL的难度非常高,数据挖掘成本非常高。因性别、症状名称、疾病名称、药名各不相同,不统一,数据挖掘、统计、分析非常困难。 | 在信息系统的设计阶段,在数据采集阶段,在产生数据阶段,全部都采用标准的、规范的、全国统一的数据,不需要ETL就已是标准的、规范的、全国统一的数据,数据挖掘、统计、分析非常容易。 |
4 | 以查询患者病史为例 | 要对全国的数百万张结构各不相同的表进行查询,需要编写大量的程序,成本非常高。各医疗机构是以住院号、门诊号作为标识而记录患者的各种数据,而各家医院的住院号、门诊号的编码各不相同,相互之间没有规律,在全国范围内查患者病史数据很难。需要先根据患者的名称、×××号从全国97.8万医疗机构的信息系统中分别查询患者是否有就诊记录,若有还要查相应的住院号、门诊号,然后再根据住院号、门诊号而从各种表中查询患者的病史数据。(注:由于原来没有"数据的唯一性"、大数据识别码的概念,同一患者的医疗数据,在不同的医疗机构的表现形式各不相同,识别方式也各不相同,不能保持"唯一"。) | 数据百万张表,结构完全相同。因此,可以通过技术处理,编写一个通用的查询工具,使用户在查询数据时犹如查询一张表中的内容。因为与患者相关的所有数据中都包含了患者×××号,因此只要通过×××号即可查询到所有数据。有了通用的查询工具后,查询的难度及工作量大幅度减少(即只是查询一张表中的数据)。(注:这也体现出了"数据的唯一性"、大数据识别码在大数据中强大作用。) |
5 | 万能查询 | 要从数百万张结构各不相同的表中查询数据,不能实现万能查询。 | 经技术处理后,犹如只有一张表,可实现万能查询,只要编写一个通用的软件工具即可。 |
"大数据的最关键技术是查询技术":大数据的特点是大,正因为大,要想获得所需数据特别困难,因此,从大数据中查询到所需要的数据就是最关键的,然后才是对查询到的数据的分析、统计。因此,可以说"大数据就是查询",大数据的前期工作是为查询做准备,大数据的后期工作是对查询到数据进行统计、分析,大数据的各种工作都是以查询为中心而展开的。
说明6:利用结构化大数据的12个技术特性为大数据的真实性提供技术保障
大数据是一种象石油一样重要的资源。大数据的真实性是大数据的基础,失去了真实性的大数据就是数据垃圾。因此,在大数据时代,如何确保大数据的真实性,就是一项非常重要的任务。
在小数据时代,各种信息系统所处理的数据主要是各单位内部的数据,数据的真实性主要由各单位自己控制。在大数据时代,数据不只是在各单位的内部流通,更需要在国内外各个单位之间流通,因此,大数据的真实性、公证性、权威性就需要得到保证,必须使大数据象公文那样具有法律效力。结构化大数据通信协议从技术的角度为大数据的真实性提供了保障。"数据的唯一性"是控制大数据的"数据的真实性"的关键。"数据的唯一性"可通过大数据识别码来体现,控制大数据的"数据的真实性"可通过控制大数据的识别码来实现,大数据识别码是事物的数据的"×××",一个事物的数据无论处于什么环境中,其大数据识别码都是唯一的。大数据不只数据、代码、符号,也是一种资源,象一种商品,也象物品,也象财产,因此要象对待资源、商品、物品、财产那样来管理大数据。物流、人流需要大量的交通警察来控制,数据流也要控制。国家是通过工商局、海关等机构来管理控制商品,大数据的真实性也需要采用类似工商局、海关管理控制商品的方法来管理控制,由各个国家的工商局(或法院、公安部、工信委等)的国家级大数据中心负责管理控制大数据的真实性比较合适。
各种商品、订单等的大数据识别码由各国的国家级大数据中心负责编码及发放工作,并对大数据识别码进行备案。国家级大数据中心负责各单位的各种资质的审核工作,只有通过了国家级大数据中心审核的单位才有资格获得的商品、订单等的大数据识别码。国家级大数据中心只负责发放大数据识别码,不负责商品、订单等的数据的真实性的审核。数据的真实性出现问题并发生纠纷时国家级大数据中心的"数据警察"对数据的真实性进行审核,并根据审核结果而进行相应的处罚,并把结果记录在案。犹如交通,司机对自己的行为负责,只是出现交通事故时,交警才出现。
获得了大数据识别码的订单、公文等要向国家级大数据中心或第三方公证机构备案,有第三方公证机构备案的订单、公文等就犹如盖了公章一样具有法律效力。这样做可以节约大量的纸质文件,也节省订单、公文等的传递的时间。
企业获得了商品的大数据识别码后需要把商品相应的各种数据上传到国家级大数据中心进行备案。企业的客户可以根据商品的大数据编码通过国家级大数据中心而获得商品的各种数据。
由于是全球统一编码,各企业信息系统之间可以直接发送、接收订单,并对订单的内容进行解读。订单中的数据采用"万能数据结构表"来存贮,并使数据具有结构化大数据的12个技术特性。订单中的各项"事物属性"(犹如字段名)必须是全球统一的。订单中的各项"事物属性"用各种不同的语言来表达时会各不相同,因此,也需要制订全球标准,使各项"事物属性"在各种语言中都能按国际标准一一对应。这样就可以设计出通用的数据解读、翻译软件工具,由软件工具自动完成不同语言的订单的翻译工作。
当前的问题:全球企业的信息系统之间不能互联互通。原因是各个系统所采用的数据编码不统一、不规范,企业的信息系统之间不能直接发送接收订单数据,需要人工把订单数据再次录入到自己的系统中。
大数据识别码的好处:实现数据全球通。以及时、准确、全面的数据流确保商品流等的顺利流通。借助于大数据识别码,企业可以利用全球数据十万个、数百万个信息系统而跟踪商品在全球各地的销售、库存情况。全球企业信息系统互联互通对供应链上下游的企业都有好处,可为商品的生产、流通提供保障。
国家级大数据中心对各种组织及个人使用大数据识别码的资格的认证:各种组织及个人都可以获得使用大数据识别码的资格,但在使用前需要通过国家级大数据中心的审核,审核合格后发给具有法律效力的"大数据电子印章"。经国家级大数据中心审核、认证后可获得使用大数据识别码的各种相关功能的资格,可以发布相关信息。国家级大数据中心的公证性、权威性确保了大数据的"数据真实性"。大数据拥有了"数据真实性"之后,可以广泛地应用各个领域。
大数据识别码在产品防假冒、药品监管方面具有广泛的用途。企业可为每个商品申请一个大数据识别码、一个验证码。用户购买到商品后,可通过手机根据商品的大数据识别码而获得验证码,验证码与商品上的相同则为正品,否则是假冒的,或者手机扫描二维码即可得知是否假冒。
用大数据识别码可以方便地管理各种证件,证件的验证非常方便,只要根据大数据识别码就可以在国家级大数据中心查到证件的信息。例如可用于如下证件管理:企业的各种资质,个人的各种证书,企业的各种认证,公证书,×××证,商检合格证,结婚证,毕业证,驾照(不必再出示驾照,说出号、或出示二维码即可)。甚至不必再各种发证书,只要发一个大数据证书即可。
用大数据识别码可以方便地管理"合同、文件、契约、借条、声明、各种承诺、票据、订单、招标文件、投标文件"等。大数据中心也可以成为一个庞大的档案管理系统。国际大数据中心为全球大数据的最高管理机构,由各个国家组成,负责全球大数据标准、规范的制订,为全球大数据立规矩。
说明7:利用结构化大数据通信协议所建立的各种信息系统所产生的数据具有累加性
创立结构化大数据通信协议的初始想法:大数据就是数据量很大的数据,当前各行各业已有很多小数据,这些小数据累加起来能不能称作是大数据呢?可以称作是大数据,但不能称作是合格的大数据。因为对这些数据进行挖掘非常困难!那么,如何使这些小数据以累加的方式成为合格的大数据?当前的数据为什么不能累加成合格的大数据呢?因为关系数据库产生的数据根本就不是真正的数据,只能称作是代码!要真正了解什么是大数据,需要首先搞清楚什么是"数据",什么是"代码"。
数据的定义:"能让相应专业的人员看懂的信息才称作是真正的数据。"例如,有关医疗的数据应该是相应的医学专业人员能直接看懂的数据,不需要其它注释、解释;有关化学的数据应该是化学专业的人员能看懂的数据,不需要其它注释、解释。
代码的定义:"相应专业的人员不能看懂的信息称作代码,相应的专业人员需要利用相应的应用程序、软件工具对代码进行翻译、解读、注释之后才能看懂代码的真实含义。"
对关系数据库而言,普通用户所看到的数据都是通过信息系统对关系数据库中的数据进行解读、翻译、注释之后的数据,并不是关系数据库中的原始数据。关系数据库中的数据不具备"识别性、独立性、完整性",即直接把关系数据库中的数据呈现给普通用户时,用户不能"识别"这些"数据",原因在于关系数据库不能"独立地"、"完整地"表达出应有的含义。
合格的数据的定义:只有能够"独立地(数据的独立性)"(不依靠软件的解读、不依靠他人的解释)、"完整地(数据的完整性)"表达出应有的含义,并能够让人及其它信息系统"识别(数据的识别性)"的数据才是合格的数据。然而关系数据库中的数据不具备这样的特性,原因在于关系数据库中的数据是一种"与系统的耦合度非常高的数据"。关系数据库中的数据与关系数据库系统和应用系统是密不可分的。关系数据库中的数据一旦脱离了关系数据库系统及应用系统,就成了不可识别的、无意义的数据。
从结构化大数据的12个技术特性的角度可以这样来描述关系数据库中的数据:由于关系数据库中的"数据"与关系数据库系统以及应用系统密不可分(不具备"与系统的耦合性(耦合度为零)"),所以"数据"不能独立地(不具备"独立性")、完整地(不具备"完整性")让人识别(不具备"可识别性"),也不能让其它信息系统识别。
由上述分析可得出这样的结论:由于关系数据库中的数据"与系统的耦合度非常高",关系数据库中的数据一旦脱离了关系数据库系统及应用系统,就成了不可识别的、无意义的数据,所以关系数据库中的数据不具备累加性。由于当前的各种信息系统基本上都是利用关系数据库而开发的,所以当前的信息系统所产生的数据不可能通过累加的方法而成为合格的大数据。
用关系数据库所建立的信息系统之所以难以互联互通是因为这样的信息系统所生成的数据没有"移植性",即数据不能直接从一个系统移植到另一个系统,这是由大数据4V特性中的"数据类型多(Variety)"问题而引起的。如果各个信息系统全部都用"万能数据结构表"存贮数据,那么"数据类型多(Variety)"问题就迎刃而解。目前只有"万能数据结构表"可使数据具有"结构统一性"及"移植性",也可使数据与信息系统脱离耦合关系。
结构化大数据通信协议就是针对关系数据库所存在的问题而创立的,目的是把关系数据库中的数据转换为合格的大数据。解决方案是:利用"万能数据结构表"先让数据"脱耦",使数据具有"结构统一性",以"独立性、完整性、规范性、唯一性、归属性"使数据具有"识别性"。
利用现有技术即可使数据具有"识别性、独立性、完整性、与系统的耦合性(耦合度为零)、结构统一性"。然而仅利用现有技术还不能使数据真正具有"累加性"和"移植性"。结构化大数据通信协议以"唯一性、归属性、规范性"使数据真正具有"累加性"和"移植性",并有效地解决了大数据4V中的"数据速度(velocity)"问题。使数据具有"唯一性、归属性、规范性"的方法才是结构化大数据通信协议的的核心技术,是专为小数据转化为大数据而创立的,看似没什么技术含量,却非常关键。
数据的规范性对大数据的重要性:在小数据时代,各个信息系统基本上都在单位内部使用。在大数据时代,信息系统之间的互联互通,挖掘来源于不同的信息系统的数据,就成了非常突出的问题,因此让数据具有规范性就是非常必要的。如果说没有"国际大数据标准、国家大数据标准、各行各业的大数据标准",那么大数据时代就不可能到来。之所以极力强调数据标准的重要性,是因为结构化大数据通信协议来源于模仿大脑的联想及大脑的超级高保真数据处理技术,只有数据全部标准化之后,数据与数据之间才能自动地根据事物的自然属性而自然地建立起联想关系,有了联想关系,大数据4V中的"数据速度快(velocity)"问题就可以迎刃而解!业内无数人士想尽各种办法都无法从根本上解决数据挖掘难的问题,其中的一个根本原因就在于当前的各个信息系统中的数据全部是不标准的、不规范的。如果各个信息系统中的数据都是规范的、统一的,数据挖掘就会很容易。数据的规范性是一个大家都了解的、非常普通的概念,然而表面平常,背后的作用却无比巨大!让数据具有规范性才能使数据的挖掘变得容易。只有把数据的规范性发挥到极致,让所有数据都是标准的、规范的、统一的,数据的规范性的超级威力才能显示出来。数据标准说起来容易,做起来非常难,需要花费巨大的人力物力,已成为影响大数据的一个关键因素。
从表面上看"数据的唯一性"和"数据的归属性"没有任何技术含量,只不过为数据增加了两个数据项、两个属性。如果从小数据的角度来看的确如此,由于小数据时代的信息系统主要是用来处理某个单位内部的数据,"数据的唯一性"根本不算什么技术,而"数据的归属性"只会为系统带来大量冗余。然而在大数据时代,"数据的唯一性"和"数据的归属性"就具有划时代的意义,是小数据变成大数据的关键,只有增加了这两个数据项,小数据才能变成大数据,凡是不含这两个数据项的都不是合格的结构化大数据,小数据只有贴上这两个标签才有资格进入大数据时代。
数据的归属性对大数据的重要性:小数据的范围是某个单位,只是在一个信息系统中生存,而大数据的范围是全球,所面对的是全球数百万以上的信息系统。为数据增加归属性的目的是确保数据无论放到哪个角落都保持不变,不会失真。数据中若不含归属性,那么,当数据移植到其它信息系统之中后就会失真,或者说,从大数据中查到数据后,就无法知道是从哪里查到的。数据的归属性对大数据非常重要,是数据的识别性、累加性、移植性的基础。
数据的唯一性对大数据的重要性:数据的唯一性是为了方便地在大数据环境中快速、准确地抓到数据,也是为了使计算机可以模仿大脑的联想功能。大数据的环境非常大,可以是全国,也可以是全球,唯一性则可确保计算机在全球范围内快速、准确地把数据从天涯海角抓出来。若无唯一性,在全球范围内抓数据就非常困难。例如,企业的A商品会出现在全球的数十万个零售商店中,A商品若无大数据识别码,企业要想从全球的数据十万信息系统中把A商品的库存、销售数据抓出来,就非常困难。唯一性让数据无处可藏,无处可逃。没有唯一性,数据在不同的信息系统中就会象白骨精那样,变成不同的样子。为数据增加"数据的唯一性",就等于为数据安装了跟踪器。
数据的12个技术特性之间的关系:"累加性、移植性"是由" 1、可识别性;2、独立性;3、完整性;4、规范性;5、与系统的耦合性(耦合度为零);6、结构的统一性;7、唯一性;8、归属性"来实现。数据与系统的耦合性(耦合度为零)是由" 1、可识别性;2、独立性;3、完整性;4、规范性;5、结构统一性"来实现。数据的可识别性是由"独立性、完整性、规范性、唯一性、归属性"来实现。
利用结构化大数据通信协议所设计的系统所产生的数据为什么可累加成合格的大数据?因为所有数据的数据结构都是相同的,数据都是规范的,不必ETL就已是可以挖掘的数据。累加性是由数据的"唯一性、归属性、可识别性、独立性、完整性、规范性、与系统的耦合性、结构的统一性"来保证的。数据具有了"唯一性、归属性、可识别性、独立性、完整性、规范性、与系统的耦合性(耦合度为零)、结构的统一性"就具有了累加性。
说明8:数据的移植性为信息系统互联互通提供了方便
当前的信息系统之所以难以互联互通,是因为当前的信息系统中的数据与系统的耦合度非常高,当数据脱离了关系数据库系统和应用系统之后就变成了无意义的数据。结构化大数据通信协议通过对数据的优化而数据具有了" 1、可识别性;2、独立性;3、完整性;4、规范性;5、与系统的耦合性(耦合度为零);6、结构统一性;7、唯一性;8、归属性;9、时间性、10、真实性",同时拥有这八大技术属性的数据就拥有了"移植性"。具有"移植性"的数据在任何信息系统中的含义都是一样的,都保持不变,即可以直接把数据发送任何数据系统中而实现互联互通。
说明9:结构化大数据通信协议可为数据在各数据库系统之间的互联互通提供通信协议
各数据库系统之间的数据互联互通的通信协议:
1、需要在各数据库中建立一张万能数据结构表,各数据库系统中的万能数据结构表的结构必须完全统一。
2、所要发送的结构化数据必须满足12个技术特性:" 1、唯一性;2、归属性;3、可识别性;4、独立性;5、完整性;6、规范性;7、与系统的耦合性(耦合度为零);8、结构统一性;9、累加性;10、移植性;11、时间性;12、真实性。"
只要满足上述二个条件,任何数据库之间的任何数据都可以互联互通,因为数据的发送方与数据的接收方都是以万数据数据结构表存贮数据,所以数据的接收方在收到数据后可以直接把数据写入自己的数据库中的万能数据结构表中。