Hadoop之mapreduce参数大全-8

发布时间:2024年01月18日

176.指定 JobHistoryServer 在缓存中存储的日期字符串的最大数量

mapreduce.jobhistory.datestring.cache.size 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 在缓存中存储的日期字符串的最大数量。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.datestring.cache.size

  • 描述: 该属性指定了 JobHistoryServer 在缓存中存储的日期字符串的最大数量。JobHistoryServer 使用日期字符串来标识历史信息目录,通过缓存这些字符串,可以提高性能。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的缓存大小。

  • 示例: 如果你希望将缓存中存储的日期字符串的最大数量设置为 1000,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.datestring.cache.size</name>
      <value>1000</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。根据你的 JobHistoryServer 的负载和性能需求来配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

177.指定 JobHistoryServer 缓存中存储的作业列表的最大数量

mapreduce.jobhistory.joblist.cache.size 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 缓存中存储的作业列表的最大数量。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.joblist.cache.size

  • 描述: 该属性指定了 JobHistoryServer 缓存中存储的作业列表的最大数量。JobHistoryServer 使用作业列表来提供有关已完成作业的信息,通过缓存这些列表,可以提高性能。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的缓存大小。

  • 示例: 如果你希望将缓存中存储的作业列表的最大数量设置为 500,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.joblist.cache.size</name>
      <value>500</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。根据你的 JobHistoryServer 的负载和性能需求来配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

178.指定 JobHistoryServer 缓存中存储的已加载作业信息的最大数量

mapreduce.jobhistory.loadedjobs.cache.size 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 缓存中存储的已加载作业信息的最大数量。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.loadedjobs.cache.size

  • 描述: 该属性指定了 JobHistoryServer 缓存中存储的已加载作业信息的最大数量。JobHistoryServer 使用这些信息来提供有关作业的详细信息,通过缓存这些信息,可以提高性能。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的缓存大小。

  • 示例: 如果你希望将缓存中存储的已加载作业信息的最大数量设置为 200,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.loadedjobs.cache.size</name>
      <value>200</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。根据你的 JobHistoryServer 的负载和性能需求来配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

179.指定 JobHistoryServer 缓存中存储的已加载任务信息的最大数量

mapreduce.jobhistory.loadedtasks.cache.size 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 缓存中存储的已加载任务信息的最大数量。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.loadedtasks.cache.size

  • 描述: 该属性指定了 JobHistoryServer 缓存中存储的已加载任务信息的最大数量。JobHistoryServer 使用这些信息来提供有关任务的详细信息,通过缓存这些信息,可以提高性能。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的缓存大小。

  • 示例: 如果你希望将缓存中存储的已加载任务信息的最大数量设置为 300,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.loadedtasks.cache.size</name>
      <value>300</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。根据你的 JobHistoryServer 的负载和性能需求来配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

180.指定 JobHistoryServer 将历史信息从中间目录移动到最终目录的时间间隔

mapreduce.jobhistory.move.interval-ms 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 将历史信息从中间目录移动到最终目录的时间间隔。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.move.interval-ms

  • 描述: 该属性指定了 JobHistoryServer 将历史信息从中间目录移动到最终目录的时间间隔。在 MapReduce 作业完成后,历史信息首先存储在中间目录中,然后在指定的时间间隔后移动到最终目录。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的时间间隔。

  • 示例: 如果你希望将移动历史信息的时间间隔设置为 1 小时,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.move.interval-ms</name>
      <value>3600000</value>
    </property>
    

    上述配置将移动历史信息的时间间隔设置为 1 小时(60 * 60 * 1000 毫秒)。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

181.指定 JobHistoryServer 将历史信息从中间目录移动到最终目录时使用的线程数量

mapreduce.jobhistory.move.thread-count 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 将历史信息从中间目录移动到最终目录时使用的线程数量。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.move.thread-count

  • 描述: 该属性指定了 JobHistoryServer 在将历史信息从中间目录移动到最终目录时使用的线程数量。多线程操作可以加快历史信息的移动过程。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的线程数量。

  • 示例: 如果你希望将历史信息移动的线程数量设置为 5,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.move.thread-count</name>
      <value>5</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 的负载和性能需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

182.指定用于存储作业历史信息的存储类

mapreduce.jobhistory.store.class 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定用于存储作业历史信息的存储类。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.store.class

  • 描述: 该属性指定了作业历史信息的存储类。作业历史信息存储类负责将作业历史信息存储到相应的存储后端,如文件系统或数据库。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的存储类。

  • 示例: 如果你希望使用 Hadoop 提供的本地文件系统存储作业历史信息,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.store.class</name>
      <value>org.apache.hadoop.mapreduce.v2.hs.HistoryFileManager</value>
    </property>
    

    上述配置使用了默认的历史信息文件管理器。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业历史服务器的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

183.指定在使用 MiniMRCluster(Mini MapReduce Cluster)时是否使用固定的端口

mapreduce.jobhistory.minicluster.fixed.ports 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定在使用 MiniMRCluster(Mini MapReduce Cluster)时是否使用固定的端口。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.minicluster.fixed.ports

  • 描述: 该属性用于控制在使用 MiniMRCluster 时是否使用固定的端口。MiniMRCluster 是用于在单元测试中运行 MapReduce 作业的嵌入式测试集群。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,MiniMRCluster 可能会使用动态分配的端口。

  • 示例: 如果你希望在 MiniMRCluster 中使用固定的端口,可以将该属性设置为 true

    <property>
      <name>mapreduce.jobhistory.minicluster.fixed.ports</name>
      <value>true</value>
    </property>
    

    上述配置将启用 MiniMRCluster 的固定端口模式。

这个配置属性通常是在测试环境中使用,用于控制 MiniMRCluster 的行为。配置的具体方式可能会依赖于 Hadoop 版本和环境。

184.指定 JobHistoryServer 的管理员服务地址

mapreduce.jobhistory.admin.address 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 的管理员服务地址。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.admin.address

  • 描述: 该属性指定了 JobHistoryServer 的管理员服务地址。管理员服务提供了一些管理和监控功能,通过这个地址可以访问这些功能。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的管理员服务地址。

  • 示例: 如果你希望将管理员服务地址设置为 localhost:10033,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.admin.address</name>
      <value>localhost:10033</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 的配置需求,并根据实际情况配置这个属性。管理员服务通常用于集群管理工具或其他监控工具的集成。更改这个属性可能需要重启与 MapReduce 相关的服务。

185.指定允许访问 JobHistoryServer 管理员服务的用户或用户组

mapreduce.jobhistory.admin.acl 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定允许访问 JobHistoryServer 管理员服务的用户或用户组。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.admin.acl

  • 描述: 该属性指定了允许访问 JobHistoryServer 管理员服务的用户或用户组。只有列在 ACL 中的用户或用户组才能访问管理员服务。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能没有明确的 ACL,允许任何用户访问管理员服务。

  • 示例: 如果你希望只允许用户 admin_user 访问管理员服务,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.admin.acl</name>
      <value>admin_user</value>
    </property>
    

    如果需要指定多个用户或用户组,可以使用逗号分隔:

    <property>
      <name>mapreduce.jobhistory.admin.acl</name>
      <value>admin_user,user_group1,user_group2</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

186.指定是否启用 JobHistoryServer 的历史信息恢复功能

mapreduce.jobhistory.recovery.enable 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定是否启用 JobHistoryServer 的历史信息恢复功能。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.recovery.enable

  • 描述: 该属性用于控制是否启用 JobHistoryServer 的历史信息恢复功能。当启用时,JobHistoryServer 将尝试从故障中恢复,并恢复尚未移动到最终目录的历史信息。

  • 默认值: 默认情况下,该属性可能是禁用的(值为 false)。

  • 示例: 如果你希望启用历史信息恢复功能,可以将该属性设置为 true

    <property>
      <name>mapreduce.jobhistory.recovery.enable</name>
      <value>true</value>
    </property>
    

启用历史信息恢复功能可以在 JobHistoryServer 发生故障后尽可能地保留历史信息。这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

187.指定 JobHistoryServer 历史信息恢复功能的存储类

mapreduce.jobhistory.recovery.store.class 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 历史信息恢复功能的存储类。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.recovery.store.class

  • 描述: 该属性指定了用于历史信息恢复功能的存储类。历史信息恢复存储类负责从故障中恢复历史信息并将其移动到最终目录。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的存储类。

  • 示例: 如果你希望使用 Hadoop 提供的默认历史信息恢复存储类,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.recovery.store.class</name>
      <value>org.apache.hadoop.mapreduce.v2.hs.RecoverableJobHistory</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

188.指定历史信息恢复功能的文件系统 URI

mapreduce.jobhistory.recovery.store.fs.uri 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定历史信息恢复功能的文件系统 URI。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.recovery.store.fs.uri

  • 描述: 该属性指定了历史信息恢复功能使用的文件系统 URI。历史信息恢复功能使用这个 URI 来定位历史信息的存储位置。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会使用 Hadoop 集群的默认文件系统。

  • 示例: 如果你希望将历史信息恢复功能的文件系统 URI 设置为 hdfs://namenode:8020,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.recovery.store.fs.uri</name>
      <value>hdfs://namenode:8020</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

189.指定历史信息恢复功能中 LevelDB 存储的路径

mapreduce.jobhistory.recovery.store.leveldb.path 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定历史信息恢复功能中 LevelDB 存储的路径。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.recovery.store.leveldb.path

  • 描述: 该属性指定了历史信息恢复功能中 LevelDB 存储的路径。LevelDB 是一个轻量级的键值存储引擎,用于存储 JobHistoryServer 恢复功能所需的元数据。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会使用 Hadoop 配置目录中的默认路径。

  • 示例: 如果你希望将 LevelDB 存储的路径设置为 /user/hadoop/mapreduce/leveldb,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.recovery.store.leveldb.path</name>
      <value>/user/hadoop/mapreduce/leveldb</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

190.指定 JobHistoryServer 的 HTTP 访问策略

mapreduce.jobhistory.http.policy 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 的 HTTP 访问策略。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.http.policy

  • 描述: 该属性用于控制 JobHistoryServer 的 HTTP 访问策略,即确定是否通过 HTTP 或 HTTPS 提供服务。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会使用适当的默认策略。

  • 可选值: 可能的取值包括:

    • HTTP_ONLY:仅通过 HTTP 提供服务。
    • HTTPS_ONLY:仅通过 HTTPS 提供服务。
    • HTTP_AND_HTTPS:同时支持 HTTP 和 HTTPS。
  • 示例: 如果你希望 JobHistoryServer 仅通过 HTTPS 提供服务,可以将该属性设置为 HTTPS_ONLY

    <property>
      <name>mapreduce.jobhistory.http.policy</name>
      <value>HTTPS_ONLY</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

191.指定在 JobHistoryServer 中显示的作业名称的最大长度限制

mapreduce.jobhistory.jobname.limit 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定在 JobHistoryServer 中显示的作业名称的最大长度限制。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.jobname.limit

  • 描述: 该属性指定了在 JobHistoryServer 中显示的作业名称的最大长度限制。如果作业名称超过这个限制,将被截断以适应显示要求。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的默认限制。

  • 示例: 如果你希望限制作业名称的最大长度为 50 个字符,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.jobname.limit</name>
      <value>50</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。根据实际情况和显示需求来配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

192.指定 JobHistoryServer 输出的历史信息文件(.jhist)的格式

mapreduce.jobhistory.jhist.format 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 输出的历史信息文件(.jhist)的格式。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.jhist.format

  • 描述: 该属性用于控制 JobHistoryServer 输出的历史信息文件的格式。历史信息文件是一种存储有关 MapReduce 作业执行的详细信息的文件,可以在之后进行分析和查看。

  • 可选值:

    • json:表示历史信息文件将以 JSON 格式输出。
    • protobuf:表示历史信息文件将以 Protocol Buffers 格式输出。
  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会使用适当的默认格式。

  • 示例: 如果你希望历史信息文件以 JSON 格式输出,可以将该属性设置为 json

    <property>
      <name>mapreduce.jobhistory.jhist.format</name>
      <value>json</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的历史信息文件处理需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

193.指定作业任务的堆内存与物理内存之间的比率

mapreduce.job.heap.memory-mb.ratio 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定作业任务的堆内存与物理内存之间的比率。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.job.heap.memory-mb.ratio

  • 描述: 该属性指定了作业任务的堆内存与物理内存之间的比率。这个比率用于计算任务的堆内存限制,以确保任务在执行时有足够的堆内存。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的默认比率。

  • 示例: 如果你希望将堆内存设置为物理内存的一半,可以将该属性设置为 0.5

    <property>
      <name>mapreduce.job.heap.memory-mb.ratio</name>
      <value>0.5</value>
    </property>
    

    上述配置将作业任务的堆内存设置为物理内存的 50%。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业执行需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

194.指定容器启动线程池的初始大小

yarn.app.mapreduce.am.containerlauncher.threadpool-initial-size 是 Apache Hadoop YARN 中 MapReduce ApplicationMaster(AM)的配置属性之一,用于指定容器启动线程池的初始大小。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.am.containerlauncher.threadpool-initial-size

  • 描述: 该属性定义了 MapReduce ApplicationMaster 中容器启动线程池的初始线程数。AM 使用容器启动线程池来异步启动任务容器。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的初始线程数。

  • 示例: 如果你希望将容器启动线程池的初始大小设置为 10,可以将该属性设置如下:

    <property>
      <name>yarn.app.mapreduce.am.containerlauncher.threadpool-initial-size</name>
      <value>10</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 MapReduce 作业执行需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

195.指定任务(Task)的退出超时时间

mapreduce.task.exit.timeout 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定任务(Task)的退出超时时间。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.task.exit.timeout

  • 描述: 该属性定义了任务退出的超时时间,即任务完成后等待 AM(ApplicationMaster)通知的最长时间。如果 AM 在超时时间内未通知任务完成,任务将被认为失败。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的超时时间。

  • 单位: 超时时间通常以毫秒(milliseconds)为单位。

  • 示例: 如果你希望将任务退出的超时时间设置为 5 分钟,可以将该属性设置如下:

    <property>
      <name>mapreduce.task.exit.timeout</name>
      <value>300000</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 MapReduce 作业执行需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

196.指定任务(Task)退出超时检查的时间间隔

mapreduce.task.exit.timeout.check-interval-ms 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定任务(Task)退出超时检查的时间间隔。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.task.exit.timeout.check-interval-ms

  • 描述: 该属性定义了任务退出超时的检查时间间隔,即任务完成后等待 AM(ApplicationMaster)通知的时间间隔。超过这个时间间隔后,AM 将检查任务是否已完成,如果未完成,则将其标记为失败。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的检查时间间隔。

  • 单位: 检查时间间隔通常以毫秒(milliseconds)为单位。

  • 示例: 如果你希望将任务退出超时的检查时间间隔设置为 1 分钟,可以将该属性设置如下:

    <property>
      <name>mapreduce.task.exit.timeout.check-interval-ms</name>
      <value>60000</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 MapReduce 作业执行需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

197.指定是否对中间数据进行加密

mapreduce.job.encrypted-intermediate-data 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定是否对中间数据进行加密。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.job.encrypted-intermediate-data

  • 描述: 该属性用于控制是否对 MapReduce 作业的中间数据进行加密。中间数据是指在不同任务之间传输的数据。

  • 可选值:

    • true:启用中间数据加密。
    • false:禁用中间数据加密。
  • 默认值: 默认情况下,可能是禁用中间数据加密。

  • 示例: 如果你希望启用中间数据加密,可以将该属性设置为 true

    <property>
      <name>mapreduce.job.encrypted-intermediate-data</name>
      <value>true</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。中间数据加密可以提高作业的安全性,特别是在敏感数据处理场景中。确保了解你的作业安全性需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

198.指定中间数据加密的密钥大小

mapreduce.job.encrypted-intermediate-data-key-size-bits 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定中间数据加密的密钥大小。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.job.encrypted-intermediate-data-key-size-bits

  • 描述: 该属性定义了用于中间数据加密的密钥的大小。密钥大小越大,通常意味着更强的安全性,但也可能导致性能开销的增加。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的密钥大小。

  • 示例: 如果你希望将中间数据加密的密钥大小设置为 128 位,可以将该属性设置如下:

    <property>
      <name>mapreduce.job.encrypted-intermediate-data-key-size-bits</name>
      <value>128</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业安全性需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

199.指定中间数据加密时使用的缓冲区大小

mapreduce.job.encrypted-intermediate-data.buffer.kb 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定中间数据加密时使用的缓冲区大小。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.job.encrypted-intermediate-data.buffer.kb

  • 描述: 该属性定义了中间数据加密时使用的缓冲区的大小。这个缓冲区用于在任务之间传输和处理加密的中间数据。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的缓冲区大小。

  • 单位: 缓冲区大小通常以千字节(kilobytes,KB)为单位。

  • 示例: 如果你希望将中间数据加密时使用的缓冲区大小设置为 512 KB,可以将该属性设置如下:

    <property>
      <name>mapreduce.job.encrypted-intermediate-data.buffer.kb</name>
      <value>512</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业安全性需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

200.指定任务(Task)对本地文件系统写入数据的限制

mapreduce.task.local-fs.write-limit.bytes 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定任务(Task)对本地文件系统写入数据的限制。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.task.local-fs.write-limit.bytes

  • 描述: 该属性定义了任务在本地文件系统上写入数据的限制。如果任务尝试写入的数据大小超过此限制,可能会导致任务失败或被终止。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的写入限制。

  • 单位: 写入限制通常以字节(bytes)为单位。

  • 示例: 如果你希望将任务对本地文件系统写入数据的限制设置为 1 GB,可以将该属性设置如下:

    <property>
      <name>mapreduce.task.local-fs.write-limit.bytes</name>
      <value>1073741824</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的任务执行需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

201.指定是否启用 JobHistoryServer 的 REST API 支持跨站点请求伪造(Cross-Site Request Forgery,CSRF)保护

mapreduce.jobhistory.webapp.rest-csrf.enabled 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定是否启用 JobHistoryServer 的 REST API 支持跨站点请求伪造(Cross-Site Request Forgery,CSRF)保护。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.webapp.rest-csrf.enabled

  • 描述: 该属性用于控制是否启用 JobHistoryServer 的 REST API 的 CSRF 保护。CSRF 是一种网络攻击,攻击者试图利用受信任用户的身份在受攻击的网站上执行非预期的操作。

  • 可选值:

    • true:启用 CSRF 保护。
    • false:禁用 CSRF 保护。
  • 默认值: 默认情况下,可能是禁用 CSRF 保护。

  • 示例: 如果你希望启用 CSRF 保护,可以将该属性设置为 true

    <property>
      <name>mapreduce.jobhistory.webapp.rest-csrf.enabled</name>
      <value>true</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 部署需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务

202.指定 JobHistoryServer 的 REST API 中用于 CSRF 保护的自定义标头

mapreduce.jobhistory.webapp.rest-csrf.custom-header 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 的 REST API 中用于 CSRF 保护的自定义标头。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.webapp.rest-csrf.custom-header

  • 描述: 该属性用于设置用于 CSRF 保护的自定义 HTTP 标头。在启用 CSRF 保护的情况下,该属性指定用于验证请求的自定义标头。这有助于增强安全性,因为攻击者需要包含正确的自定义标头才能执行受保护的 REST API 操作。

  • 默认值: 默认情况下,可能没有设置自定义标头。

  • 示例: 如果你希望在启用 CSRF 保护时指定自定义标头为 X-Csrf-Token,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.webapp.rest-csrf.custom-header</name>
      <value>X-Csrf-Token</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 部署需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

203.指定 JobHistoryServer 的 REST API 中被忽略 CSRF 保护的 HTTP 方法

mapreduce.jobhistory.webapp.rest-csrf.methods-to-ignore 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 的 REST API 中被忽略 CSRF 保护的 HTTP 方法。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.webapp.rest-csrf.methods-to-ignore

  • 描述: 该属性用于设置被忽略 CSRF 保护的 HTTP 方法列表。在启用 CSRF 保护的情况下,这些方法将不受 CSRF 保护的影响,不需要携带 CSRF 令牌。

  • 默认值: 默认情况下,可能没有设置被忽略的方法。

  • 可选值: 逗号分隔的 HTTP 方法列表,例如 GET,HEAD

  • 示例: 如果你希望忽略 CSRF 保护对 GETHEAD 方法的影响,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.webapp.rest-csrf.methods-to-ignore</name>
      <value>GET,HEAD</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 部署需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

204.指定作业缓存中最大资源数量的限制

mapreduce.job.cache.limit.max-resources 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定作业缓存中最大资源数量的限制。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.job.cache.limit.max-resources

  • 描述: 该属性定义了作业缓存中最大资源数量的限制。作业缓存用于存储和管理与作业相关的资源,例如 Jar 文件、配置文件等。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的资源限制。

  • 示例: 如果你希望将作业缓存中最大资源数量的限制设置为 100,可以将该属性设置如下:

    <property>
      <name>mapreduce.job.cache.limit.max-resources</name>
      <value>100</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业执行需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

205.指定作业缓存中最大资源总量的限制

mapreduce.job.cache.limit.max-resources-mb 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定作业缓存中最大资源总量的限制。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.job.cache.limit.max-resources-mb

  • 描述: 该属性定义了作业缓存中最大资源总量的限制。作业缓存用于存储和管理与作业相关的资源,例如 Jar 文件、配置文件等。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的资源总量限制。

  • 单位: 资源总量通常以兆字节(megabytes,MB)为单位。

  • 示例: 如果你希望将作业缓存中最大资源总量的限制设置为 500 MB,可以将该属性设置如下:

    <property>
      <name>mapreduce.job.cache.limit.max-resources-mb</name>
      <value>500</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业执行需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

206.指定作业缓存中单个资源的最大大小限制

mapreduce.job.cache.limit.max-single-resource-mb 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定作业缓存中单个资源的最大大小限制。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.job.cache.limit.max-single-resource-mb

  • 描述: 该属性定义了作业缓存中单个资源的最大大小限制。作业缓存用于存储和管理与作业相关的资源,例如 Jar 文件、配置文件等。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的单个资源大小限制。

  • 单位: 单个资源大小通常以兆字节(megabytes,MB)为单位。

  • 示例: 如果你希望将作业缓存中单个资源的最大大小限制设置为 100 MB,可以将该属性设置如下:

    <property>
      <name>mapreduce.job.cache.limit.max-single-resource-mb</name>
      <value>100</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业执行需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

207.设置 JobHistoryServer Web 应用程序的 X-Frame-Options 标头,以增强安全性

mapreduce.jobhistory.webapp.xfs-filter.xframe-options 是 Apache Hadoop MapReduce 中的一个配置属性,用于设置 JobHistoryServer Web 应用程序的 X-Frame-Options 标头,以增强安全性。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.webapp.xfs-filter.xframe-options

  • 描述: 该属性用于设置 JobHistoryServer Web 应用程序的 X-Frame-Options 标头,以防止页面被嵌套在 <frame><iframe><object><embed> 中,从而提高防御点击劫持攻击的能力。

  • 可选值:

    • DENY:拒绝所有页面嵌套。
    • SAMEORIGIN:允许相同域中的页面嵌套。
  • 默认值: 默认情况下,可能没有设置 X-Frame-Options 标头,或者取决于 Web 服务器的默认配置。

  • 示例: 如果你希望设置 X-Frame-Options 为 DENY,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.webapp.xfs-filter.xframe-options</name>
      <value>DENY</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 部署需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

208.指定在加载作业历史信息时允许的最大任务数量

mapreduce.jobhistory.loadedjob.tasks.max 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定在加载作业历史信息时允许的最大任务数量。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.loadedjob.tasks.max

  • 描述: 该属性定义了在加载作业历史信息时允许的最大任务数量。在作业历史服务器加载作业信息时,可能需要限制任务的数量,以防止加载大量任务导致性能问题或资源耗尽。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的最大任务数量限制。

  • 示例: 如果你希望将加载作业历史信息时允许的最大任务数量限制设置为 5000,可以将该属性设置如下:

    <property>
      <name>mapreduce.jobhistory.loadedjob.tasks.max</name>
      <value>5000</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 部署需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

209.指定在作业历史记录中需要被隐藏的敏感信息的属性列表

mapreduce.job.redacted-properties 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定在作业历史记录中需要被隐藏的敏感信息的属性列表。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.job.redacted-properties

  • 描述: 该属性定义了在作业历史记录中需要被隐藏的敏感信息的属性列表。这些属性通常包含了一些敏感的配置信息,例如密码、密钥等,为了保护安全性,它们在作业历史记录中被屏蔽。

  • 格式: 逗号分隔的属性列表。

  • 示例: 如果你希望在作业历史记录中隐藏名为 passwordsecret.key 的属性,可以将该属性设置如下:

    <property>
      <name>mapreduce.job.redacted-properties</name>
      <value>password,secret.key</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业执行需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

210.指定 OutputCommitter 工厂类

mapreduce.outputcommitter.factory.class 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 OutputCommitter 工厂类。OutputCommitter 负责管理任务的输出,包括任务输出目录的设置、任务的提交和任务的取消等。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.outputcommitter.factory.class

  • 描述: 该属性定义了用于创建 OutputCommitter 实例的工厂类。OutputCommitter 负责实际的输出提交和取消逻辑。

  • 默认值: 默认情况下,可能是没有设置该属性,而使用默认的 OutputCommitter。

  • 示例: 如果你有一个自定义的 OutputCommitter 工厂类 com.example.CustomOutputCommitterFactory,可以将该属性设置如下:

    <property>
      <name>mapreduce.outputcommitter.factory.class</name>
      <value>com.example.CustomOutputCommitterFactory</value>
    </property>
    

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业执行需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

211.指定在使用 S3A 文件系统时的 OutputCommitter 工厂类

mapreduce.outputcommitter.factory.scheme.s3a 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定在使用 S3A 文件系统时的 OutputCommitter 工厂类。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.outputcommitter.factory.scheme.s3a

  • 描述: 该属性定义了在使用 S3A 文件系统时用于创建 OutputCommitter 实例的工厂类。S3A 是 Hadoop 的一个文件系统实现,用于与 Amazon S3 存储集成。

  • 默认值: 默认情况下,可能是没有设置该属性,而使用默认的 OutputCommitter。

  • 示例: 如果你有一个自定义的 OutputCommitter 工厂类 com.example.S3ACustomOutputCommitterFactory 用于 S3A 文件系统,可以将该属性设置如下:

    <property>
      <name>mapreduce.outputcommitter.factory.scheme.s3a</name>
      <value>com.example.S3ACustomOutputCommitterFactory</value>
    </property>
    

这个配置属性通常是在 core-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业执行需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

文章来源:https://blog.csdn.net/m0_49620121/article/details/135659976
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。