Hadoop集成对象存储和HDFS磁盘文件存储

发布时间：2023年12月28日

1.环境配置

1.1 版本说明

组件	版本	是否必须	其他事项
Hadoop	3.3.0+	是	hadoop3.3.0之后原生支持国内主要对象存储
Hive	3.1.3	否	实测没有Hive也可以使用sparksql，使用hive更好的管理HDFS数据
spark	3.3.1	是	hive和spark整合后，语法为HSQL，自定义函数按照hive使用即可
cos	未知	是

说明：由于部分生产日志过大，且需要对近期数据进行分析，HDFS文件存储成本较高，因此定于将近期热数据存储与hdfs，冷数据存储在更便宜的对象存储之上。

1.3 cos与hadoop集成特征

支持 Hadoop MapReduce 和 Spark 将数据写入 COS 并直接从 COS 中读取。
实现了Hadoop文件系统的接口，提供了与HDFS相同的伪层次目录结构。
支持大文件分段上传。单个文件最大支持19TB
高性能和高可用性。Hadoop-COS 与 HDFS 的性能差异不超过 30%。

1.4 使用限制

对象存储不是文件系统，它有一些限制：

对象存储是一种键值存储，它天然不支持分层目录。通常，使用对象键中的目录分隔符来模拟分层目录，例如“/hadoop/data/words.dat”。
COS 对象存储目前不支持对象的追加操作。这意味着您不能将内容附加到现有对象（文件）的末尾。
删除和重命名操作都是非原子的，这意味着操作会被中断，操作结果可能会处于不一致的状态。
对象存储有不同的授权模型：

目录权限报告为 777。
文件权限报告为 666。
文件所有者被报告为本地当前用户。
文件组也被报告为本地当前用户。

支持大文件（最大40TB）分段上传，但分段数量限制为10000。
每次列出的文件数量限制为 1000 个。

2.Hadoop与HDFS集成

详见本博客《最全Hadoop实际生产集群高可用搭建》

3.Hadoop与yarn集成

3.1 概念

Bucket：COS 中存储数据的容器，名称由用户自定义的 BucketName 和用户 AppID 组成。
Appid：用户维度的唯一资源标识符。
SecretId：用于验证用户身份的 ID
SecretKey：用于验证用户身份的密钥
Region：桶所在的区域。
CosN：Hadoop-COS 使用cosn作为其 URI 方案，因此 CosN 通常用来指代 Hadoop-COS。

3.2 依赖关系

cos_api（5.4.10 或更高版本）
cos-java-sdk（推荐2.0.6版本）
joda-time（推荐2.9.9版本）
httpClient（推荐4.5.1或更高版本）
Jackson：jackson-core、jackson-databind、jackson-annotations（2.9.8 或更高版本）
bcprov-jdk15on（推荐1.59版本）

3.3 属性配置

如果您计划使用 COS 作为 Hadoop 或其他大数据系统的默认文件系统，则需要在 core-site.xml 中将fs.defaultFS配置为 Hadoop-COS 的 URI。Hadoop-COS 使用cosn作为其 URI 方案，并使用存储桶作为其 URI 主机。同时，您需要显式设置fs.cosn.userinfo.region来指示您的存储桶所在的区域。

对于 Hadoop-COS，fs.defaultFS是一个选项。如果您只是暂时使用 COS 作为 Hadoop 的数据源，则无需设置该属性，只需在使用时指定完整的 URI 即可。例如：hadoop fs -ls cosn://testBucket-125236746/testDir/test.txt。

fs.cosn.userinfo.region是 Hadoop-COS 的必需属性。原因是 Hadoop-COS 必须知道使用存储桶的区域，才能准确构造 URL 来访问它。

COS支持多区域存储，不同区域默认有不同的访问域。建议根据自己的业务场景选择就近的存储区域，以提高对象上传下载速度。

3.3.1 配置core-site.xml

hadoop官网的配置名称有些问题，建议参考腾讯的官网来配置

 <!-- URI 和区域属性 -->
    <!-- 此配置适用于将cos位置默认的存储位置
        <property>
        <name>fs.defaultFS</name>
        <value>cosn://<bucket-appid></value>
        <description>
            Optional: If you don't want to use CosN as the default file system, you don't need to configure it.
        </description>
    </property> -->

    <property>
        <name>fs.cosn.bucket.region</name>
        <value>ap-xxx</value>
        <description>The region where the bucket is located</description>
    </property>



<!--用户身份验证属性-->
<property>
        <name>fs.cosn.credentials.provider</name>
        <value>org.apache.hadoop.fs.auth.SimpleCredentialProvider</value>
</property>

    <property>
        <name>fs.cosn.userinfo.secretId</name>
        <value>xxxx</value>
        <description>Tencent Cloud Secret Id </description>
    </property>

    <property>
        <name>fs.cosn.userinfo.secretKey</name>
        <value>xxxx</value>
        <description>Tencent Cloud Secret Key</description>
    </property>

<!--Integration Properties-->
<property>
        <name>fs.cosn.impl</name>
        <value>org.apache.hadoop.fs.CosFileSystem</value>
        <description>The implementation class of the CosN Filesystem</description>
    </property>

    <property>
        <name>fs.AbstractFileSystem.cosn.impl</name>
        <value>org.apache.hadoop.fs.CosN</value>
        <description>The implementation class of the CosN AbstractFileSystem.</description>
    </property>
<!--Other Runtime Properties-->
<property>
        <name>fs.cosn.tmp.dir</name>
        <value>/tmp/hadoop_cos</value>
        <description>Temporary files would be placed here.</description>
    </property>

    <property>
        <name>fs.cosn.buffer.size</name>
        <value>33554432</value>
        <description>The total size of the buffer pool.</description>
    </property>

    <property>
        <name>fs.cosn.block.size</name>
        <value>8388608</value>
        <description>
        Block size to use cosn filesysten, which is the part size for MultipartUpload. Considering the COS supports up to 10000 blocks, user should estimate the maximum size of a single file. For example, 8MB part size can allow  writing a 78GB single file.
        </description>
    </property>

    <property>
        <name>fs.cosn.maxRetries</name>
        <value>3</value>
        <description>
      The maximum number of retries for reading or writing files to COS, before throwing a failure to the application.
        </description>
    </property>

    <property>
        <name>fs.cosn.retry.interval.seconds</name>
        <value>3</value>
        <description>The number of seconds to sleep between each COS retry.</description>
    </property>

3.3.2 属性配置介绍

特性	描述	默认值	必需的
fs.defaultFS	配置Hadoop使用的默认文件系统。	没有任何	不
fs.cosn.credentials.provider	此选项允许用户指定如何获取凭据。如果未指定，凭证提供程序的默认顺序为：1. org.apache.hadoop.fs.auth.SimpleCredentialsProvider2.org.apache.hadoop.fs.auth.EnvironmentVariableCredentialsProvider。	没有任何	不
fs.cosn.userinfo.secretId/secretKey	您账户的API密钥信息	没有任何	是的
fs.cosn.bucket.region	桶所在区域。	没有任何	是的
fs.cosn.impl	CosN 文件系统的实现类。	没有任何	是的
fs.AbstractFileSystem.cosn.impl	CosN AbstractFileSystem 的实现类。	没有任何	是的
fs.cosn.tmp.dir	程序运行过程中，cosn生成的临时文件会存放在这里。	/tmp/hadoop_cos	不
fs.cosn.缓冲区大小	缓冲池的总大小。要求大于或等于块大小。	33554432	不
fs.cosn.块大小	文件块的大小。考虑到每个文件最多可以分为10000个上传的限制，必须根据使用的单个文件的最大大小来设置该选项。例如，8MB 的部分大小可以允许写入 78GB 的??单个文件。	8388608	不
fs.cosn.upload_thread_pool	文件流式传输到 COS 时并发上传的线程数。	CPU核心数*3	不
fs.cosn.read.ahead.block.size	每个预读块的大小。	524288 (512KB)	不
fs.cosn.read.ahead.queue.size	预读队列的长度。	10	不
fs.cosn.maxRetries	在向应用程序抛出故障之前，向 COS 读取或写入文件的最大重试次数。	3	不
fs.cosn.重试.间隔.秒	每次重试之间休眠的秒数	3	不

3.3.3 更新其他位置的core-site.xml

hive和spark的core-site.xml文件并分发

3.4 依赖包配置

3.4.1 获取 Hadoop-COS 分发包及其依赖

下载地址：Hadoop-COS release

3.4.2 安装hadoop-cos

将hadoop-cos-{hadoop.version}-x.x.x.jar和cos_api-bundle-5.x.x.jar 拷贝到 $HADOOP_HOME/share/hadoop/tools/lib下。

NOTE: 根据hadoop的具体版本选择对应的jar包，若release中没有提供匹配版本的jar包，可自行通过修改pom文件中hadoop版本号，重新编译生成。

修改 hadoop_env.sh 在 $HADOOP_HOME/etc/hadoop目录下，进入 hadoop_env.sh，增加如下内容，将 cosn 相关 jar 包加入 Hadoop 环境变量：

for f in $HADOOP_HOME/share/hadoop/tools/lib/*.jar; do
  if [ "$HADOOP_CLASSPATH" ]; then
    export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$f
  else
    export HADOOP_CLASSPATH=$f
  fi
done

将hadoop-cos-{hadoop.version}-x.x.x.jar和cos_api-bundle-5.x.x.jar 拷贝到 $HIVE_HOME/lib下

4.测试使用

4.1 hadoop测试

hadoop fs -ls -R cosn://examplebucket-1250000000000/<路径>
hadoop fs -ls -R /<路径>(配置了fs.defaultFS选项为 cosn:// 后)

#例如：
hadoop fs -ls -R cosn://hdfs-test-1252681929/
-rw-rw-rw-   1 root root       1087 2018-06-11 07:49 cosn://hdfs-test-1252681929/LICENSE
drwxrwxrwx   - root root          0 1970-01-01 00:00 cosn://hdfs-test-1252681929/hdfs
drwxrwxrwx   - root root          0 1970-01-01 00:00 cosn://hdfs-test-1252681929/hdfs/2018
-rw-rw-rw-   1 root root       1087 2018-06-12 03:26 cosn://hdfs-test-1252681929/hdfs/2018/LICENSE
-rw-rw-rw-   1 root root       2386 2018-06-12 03:26 cosn://hdfs-test-1252681929/hdfs/2018/ReadMe
drwxrwxrwx   - root root          0 1970-01-01 00:00 cosn://hdfs-test-1252681929/hdfs/test
-rw-rw-rw-   1 root root       1087 2018-06-11 07:32 cosn://hdfs-test-1252681929/hdfs/test/LICENSE
-rw-rw-rw-   1 root root       2386 2018-06-11 07:29 cosn://hdfs-test-1252681929/hdfs/test/ReadMe

4.2 hive及spark测试

hive测试

-- 测试数据分区插入对象存储
CREATE TABLE `student1`(
id int, name string
  )
PARTITIONED BY (
  `part_day` string)
ROW FORMAT SERDE
  'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
STORED AS INPUTFORMAT
  'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'
    OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
LOCATION
  'cosn://hdfs-test-1252681929/test/student1';

set spark.yarn.queue=xxxx;
insert into table student1 values(1,'abc','20231217');

spark类似

文章来源:https://blog.csdn.net/Brother_ning/article/details/135164558
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！