跳至主内容

数据湖

数据湖是集中存储海量日志数据的仓库,这些数据无需立即搜索或分析,但需保留供未来使用。数据湖非常适合长期存储、合规或归档需求,既能保持日志可访问性,又不会影响 安全数据湖 .

数据湖路由按数据流配置,意味着经筛选进入该数据流的所有消息在处理后可直接写入数据湖。存储的日志数据后续可进行预览、检索和重新分析,用于事件调查、告警监控、仪表板可视化及报告等场景。

优势

  • 数据湖提供低成本的长期日志存储方案,支持在需要分析时预览和检索数据。

  • 数据湖预览功能提供快速概览,帮助决策是否启动检索操作。

  • 您可以检索数据湖日志用于搜索、分析、可视化、报告等用途。

  • 路由至数据湖(而非搜索后端)的日志在用户检索前不计入许可的每日摄入量。

数据湖与归档对比

您可以同时使用数据湖和 归档 进行长期保存。虽然两者用途相似,但对于即时价值较低的数据,数据湖通常更具优势,因为:

  • 由于支持细粒度恢复,检索速度通常更快。

  • 数据经过压缩,可降低存储成本。

将日志路由至数据湖

要将日志路由至数据湖,请在目标流上启用 数据路由 并选择 数据湖 作为日志目的地。您可以在流上添加过滤规则,控制哪些日志进入数据湖,哪些进入其他目的地(例如索引集)。

预览数据湖中的数据

数据湖预览 功能可概览存储数据。使用预览页面的筛选器定位特定数据,在决定将其检索至 安全数据湖 进行搜索分析前进行检查。

从数据湖检索日志

要搜索分析数据湖中的日志,必须先检索数据以将其写回搜索后端。检索操作基于最初用于将数据路由至数据湖的流。检索时,日志将恢复到创建流时定义的索引集。

您可通过应用筛选器和定义特定时间范围执行选择性检索,缩小提取数据范围。检索前可使用数据湖预览功能检查匹配日志,确认目标数据存在。

管理数据湖

设置数据湖后,您可以通过 概览 选项卡进行监控管理,路径为数据湖 >设置 。该数据湖 作业 部分列出了当前和最近针对数据湖运行的作业及其状态。利用这些信息可以排查出现的问题,并规划数据检索操作。

此页面还列出了所有将日志路由到数据湖的流及其详细信息。在流列表中,您可以启动日志预览或检索流的日志操作。点击 数据路由 可查看或更新流的数据路由定义。

从数据湖预览日志

数据湖预览 功能可查看存储在数据湖中的日志数据。您可以在检索日志进行搜索和分析前预览检查日志。预览数据不会影响许可证用量。只有在检索后(若日志尚未发送至搜索后端),日志数据才会计入许可证用量。

数据湖预览与搜索的区别

数据湖预览不等同于 安全数据湖 搜索。

  • 搜索 针对存储在搜索后端的索引数据运行,并支持自定义查询语法。

  • 预览 提供简化的界面查看存储的日志数据,但筛选选项和字段可用性有限。

要预览数据,请选择路由到数据湖的流,然后根据存储消息的时间戳使用筛选器和时间范围控件缩小视图。

注意

数据湖筛选器与标准 安全数据湖 搜索中使用的不同:

  • 预览筛选器基于存储基础设施的元数据,而非原始日志字段。

  • 无法为自定义字段名称创建或应用筛选器。

预览日志数据

要在数据湖中预览数据:

  1. 转到 数据湖 > 预览 .

  2. 选择要预览日志数据的流。

  3. (可选)选择要预览日志数据的时间范围。默认情况下,预览显示过去30分钟的日志。

  4. (可选)应用筛选条件以缩小结果范围:

    • 选择 按字段筛选 ,从下拉菜单中选择字段并输入值。

    • 点击 添加字段 以添加更多筛选条件。

    • 使用 ANDOR 逻辑组合多个筛选条件。

    • 虽然预览可使用多个筛选条件,但检索操作最多支持三个筛选条件。

    注意

    数据流 关联资产 字段进行筛选会因密集的内存计算和数据传输显著增加处理时间。

    为获得最佳性能,建议在狭窄时间范围内使用这些筛选条件,并限制额外筛选条件的数量。

  5. 点击 执行搜索 .

若数据湖包含大量数据,预览可能需要较长时间完成。每位用户同时只能运行一个预览作业,且作业执行时间限制为四小时。超时作业将自动失败。

匹配日志将显示在 预览 页面的列表视图组件中。最近预览结果将保留24小时。您可通过调整筛选条件或时间范围后再次点击 执行搜索 来优化结果。

要自定义列表视图,请点击 编辑图标 位于表格右上角,可进行以下操作:

  • 添加或删除列。

  • 调整列顺序以优先显示关键字段。

  • 若存储数据中存在已知自定义字段,可将其添加至表格。

点击任意行旁边的 展开 图标,可查看包含该消息所有字段及值的弹窗。也可使用页面顶部的 高亮 功能,为字段或值设置颜色标识以便快速识别。

注意

预览组件最多显示500条结果。处理大型数据集时,请尝试不同筛选组合以定位所需数据。

从预览中提取日志数据

查看日志数据后,可直接从预览界面提取数据。提供两种提取方式:

  • 从完整预览中提取

    1. 点击 提取日志 (位于预览列表右上角)。

      系统将打开 提取日志 窗口,其中已预填当前筛选条件及选择项。

    2. 按需调整设置后,点击 提取 .

      注意

      单次提取任务最多包含三个筛选条件。

  • 提取选定日志消息

    1. 在预览结果中勾选需要提取的日志消息复选框。

    2. 选择 批量操作 > 检索日志 .

    3. 通过选择 检索 在显示已选日志数量的窗口中确认检索操作。

您可以通过 概览 选项卡下的 数据湖 > 设置 .

检索完成后,您可以通过访问 → [您的流] > 数据路由 > 目的地 > 数据湖 > 检索操作 .

从数据湖检索日志

当您需要搜索和分析存储在数据湖中的日志时,必须先将其检索出来以便写入搜索后端。您可以根据时间范围从特定流中检索日志,并可应用筛选条件缩小检索数据范围。

日志将被恢复到流创建时定义的索引集中。

注意

路由至数据湖但未发送至搜索后端的日志在检索前不计入许可证用量。

检索完成后,已检索的日志数据将计入许可证用量。

检索数据索引

当从数据湖检索日志时,恢复的数据会被发送至您的搜索后端并进行索引,以供搜索和其他操作使用。

每次检索都会创建一个以restored-archive-data-lake为前缀的新索引,后接唯一数字标识符。索引完成后,恢复的数据与最初路由至搜索后端的数据行为完全一致。

注意

检索数据不会将其从数据湖中移除。恢复的数据副本仍会保留在数据湖中存储。

检索日志

要从数据湖检索日志数据,请按以下步骤操作:

  1. 导航至 数据湖 > 设置 > 概览 .

  2. 定位需要检索日志的数据流。

  3. 选择 检索日志 .

  4. 在对话框中,使用日期和时间选择器设置 时间范围

  5. 按原始目标过滤检索 下方,选择以下选项之一:

    • 必须排除:搜索集群 – 仅从数据湖检索数据(未预先索引的数据)。

    • 必须包含:搜索集群 – 仅从搜索后端检索数据(已预先索引的数据)。

    • 包含全部 – 从两个来源检索数据。

  6. (可选)添加筛选条件以进一步限制检索的日志数据:

    1. 选择 添加筛选条件 ,然后选择字段名称并输入筛选值。

    2. 最多可添加三个筛选条件,并使用AND或OR逻辑组合它们。

    注意

    您无法应用超出可用选项的自定义筛选条件或查询。更多信息,请参阅 数据湖预览 .

  7. 选择 检索 以启动流程。

配置检索时,对话框底部会显示估算值,指示待搜索数据的近似量。检索过程可能因数据量而耗时。

启动后,检索任务将出现在 数据湖 > 设置 > 概览 > 数据湖任务 下。检索完成后,您的日志将可供搜索和分析。

您也可以在检查数据后直接从数据湖预览页面发起检索。

检索完成后,您可以通过导航至 > [您的流] > 数据路由 > 目的地 > 数据湖 > 检索操作 .