贵阳达内教育IT培训机构
学校服务热线全国服务热线:400-6136-679

贵阳疫情后大数据培训机构

  贵阳疫情后大数据培训机构---小编为您推荐达内教育

  贵阳达内教育,美国上市公司,一家专业从事成人IT培训机构,教学以实战性,专业性为主体,让达内学子轻松就业,挑战高薪不再是梦想.

贵阳疫情后大数据培训机构

  原始文本文件
  首先,我们不需要做任何事情。HDFS提供分布式文件存储,所以我们可以直接将原始文本文件存储在HDFS上。通常,我们会使用txt、csv、json、xml等文本格式的文件存储在HDFS上,然后由各种计算引擎加载和计算。
  HDFS是根据块来存储文件的,缺少的设置块的大小是64M,所以假设我的文本文件是1G,它将被分成16个分区,由计算引擎(Spark,Map/Reduce)并行处理和计算。
  使用文本格式的主要问题是:
  1.占用空间大。
  2.在处理过程中,有额外的序列化反序列化费用,例如将日志中的文本12转换为数字的12。
  因此,这里引入了两种解决方案:
  1.压缩。
  压缩是利用计算资源换取存储/IO资源。由于压缩后体积小,储存和传输的效率变得更高。当然,压缩和解压会消耗系统的计算资源。常用的压缩算法有:snappy,gzip,bzip,LZO,zlib等。
  2.采用二进制序列化格式。
  采用二进制序列化格式,存储空间小于文本,也有更好的序列化和反序列化支持。
  SequenceFile支持压缩
  为了解决文本文件存储和传输效率低下的问题,Hadoop提供了SequenceFile格式,SequenceFile是HadopAPI提供的二进制文件,将数据(Key/Value形式)序列化为文件。使用Hadoop标准的Writable接口在二进制文件中实现序列化和反序列化。记录存储方式有三种,无压缩,记录压缩和块压缩。SequenceFile只支持Java,SequenceFile一般用作小文件的容器,以防止小文件占用过多的NameNode内存空间来存储其在DataNode位置的元数据。
  序列化文件与语言无关
  虽然SequenceFile解决了本文件的空间占用问题,但它支持Java,我们的程序员认为PHP是较好的语言,所以我们需要一个与语言无关的序列化文件格式。Facebook推出了thrift,用于实现跨语言服务和接口,以满足跨平台通信。然而,Thrift不支持分片,缺乏MapReduce的原始支持。
  Avro是一个支持数据密集型二进制文件格式和数据序列化的系统,它的出现主要是为了解决WritablesAPI缺乏跨语言移植的缺陷。Avro在文件头存储模式,所以每个文件都是自描述的,Avro还支持模式演进(schemaevolu
  tion),也就是说,读取文件的模式不需要与写入文件的模式严格匹配,当有新的需求时,可以在模式中添加新的字段。Avro的文件格式更加紧凑。如果要读取大量数据,Avro可以提供更好的序列化和反序列化性能。即使Gzip压缩后,Avro也支持分片。
  作为Hadoop的基于行的存储格式,Avro已经被广泛用作序列平台。Avro将模式Schema存储为JSON格式,使任何程序都能轻松读取和解释。数据本身以二进制格式存储,使其紧凑。Avro是一个与语言无关的数据序列系统。可采用多种语言(目前为C,C++,C#,Java,Python和Ruby)进行处理。Avro的一个关键功能是对数据架构的强大支持,它会随着时间的推移而变化,也就是架构的演变。Avro处理架构变更,如缺少字段、添加字段和变更字段。Avro提供了丰富的数据结构。举例来说,你可以创建一个包含数组、枚举类型和子记录的记录。
  这种格式是数据湖着陆区存储数据的理想选择,因为:1。下游系统通常会进一步处理从登陆区读取的数据(在这种情况下,基于行的格式更有效)2。下游系统可以轻松地从文件中检索表模式(无需将Schema分别存储在外部元存储中)3。任何源模式的变化都很容易处理(Schema模式的演变)。
  存储格式面向行/列
  以前的文件格式都是面向行的,同一行的数据存储在一起,即连续存储。这样,如果只需要访问一小部分银行数据,也需要将整行读入内存,推迟序列化可以在一定程度上缓解这个问题,但是从磁盘上读取整行数据的费用是不可避免的。面向行的存储适用于整行数据需要同时处理的情况。在大数据分析的场景中,我们经常对不同的列进行分析,大多数分析计算只使用少数列。这时候银行存储的效率就不高了,因为会读入不需要的全行数据。
  想了解具体详情可咨询在线客服或拨打400热线!

尊重原创文章,转载请注明出处与链接:http://news.peixun360.com/887487/ 违者必究! 以上就是 贵阳达内教育IT培训机构 小编为您整理 贵阳疫情后大数据培训机构 的全部内容。

版权所有:培训指南(www.peixun360.com) 技术支持:培训指南网

温馨提示:提交留言后老师会第一时间与您联系!热线电话:400-6136-679