数据湖
数据湖是集中存储海量日志数据的仓库,这些数据无需立即检索分析,但需保留供未来使用。数据湖非常适合长期存储、合规或归档需求,既能保持日志可访问性,又不会影响 安全数据湖 .
数据湖路由按流配置,意味着所有过滤到该流的消息经处理后可直接写入数据湖。存储的日志数据后续可预览、检索和重新分析,用于事件调查、告警监控、仪表板可视化及报告等场景。
优势
-
数据湖提供低成本的长期日志存储。需要分析时可随时预览检索数据。
-
数据湖预览功能提供快速概览,帮助决策是否启动检索。
-
可检索数据湖日志用于搜索、分析、可视化、报告等用途。
-
路由至数据湖(而非搜索后端)的日志,在用户检索前不计入每日许可摄入量。
数据湖 vs 归档
可同时使用数据湖与 归档存储 用于长期保存。虽然两者用途相似,但数据湖通常更适合即时价值较低的数据,因为:
-
由于支持细粒度恢复,检索速度通常更快。
-
数据经过压缩,可降低存储成本。
将日志路由至数据湖
要将日志路由到数据湖,请在目标流上启用
数据路由
并选择
数据湖
作为日志目的地。您可以在流上添加过滤规则,以控制哪些日志进入数据湖,哪些进入其他目的地(例如索引集)。
预览数据湖中的数据
该 数据湖预览功能 提供对存储数据的高层概览。使用预览页面的筛选器定位特定数据,并在决定将其检索到 安全数据湖 进行搜索分析前进行检查。
从数据湖检索日志
要搜索分析存储在数据湖中的日志,必须先检索数据以将其写回搜索后端。检索操作基于最初用于将数据路由到数据湖的流。检索时,日志将恢复到创建流时定义的索引集。
您可以通过应用筛选器和定义特定时间范围来执行选择性检索,以缩小提取的数据范围。为确认检索前存在正确数据,可使用数据湖预览功能检查匹配日志。
管理数据湖
设置数据湖后,您可以通过 概览 选项卡(路径:数据湖 > 设置 )进行监控管理。数据湖 作业 部分列出针对数据湖运行的当前和近期作业及其状态。利用这些信息可排查问题并规划数据检索操作。
此页面还列出所有向数据湖路由日志的流及其详细信息。在流列表中,可针对某条流启动日志预览或检索操作。点击 数据路由 可查看或更新该流的数据路由定义。
从数据湖预览日志
数据湖预览 功能可查看存储在数据湖中的日志数据。您可以在检索日志进行搜索和分析前先行预览检查。预览数据不会影响许可证使用量。只有被检索且尚未发送至搜索后端的日志数据才会计入许可证使用量。
数据湖预览与搜索的区别
数据湖预览不等同于 安全数据湖 搜索。
-
搜索 作用于存储于搜索后端的索引数据,并支持自定义查询语法。
-
预览 提供简化的界面查看存储的日志数据,但筛选选项和可用字段有限。
要预览数据,请选择路由至数据湖的流,然后根据存储消息的时间戳使用筛选器和时间范围控件缩小视图范围。
注意
数据湖筛选器与标准 安全数据湖 搜索使用的筛选器不同:
-
预览筛选器基于存储基础设施的元数据,而非原始日志字段。
-
无法为自定义字段名创建或应用筛选器。
预览日志数据
预览数据湖中的数据:
-
前往 数据湖 > 预览 .
-
选择要预览日志数据的流。
-
(可选)选择要预览日志数据的时间范围。默认显示过去30分钟的日志。
-
(可选)应用筛选器缩小结果范围:
-
选择 按字段筛选 ,从下拉列表中选择字段并输入值。
-
点击 添加字段 以添加更多筛选条件。
-
使用
AND或OR逻辑组合多个筛选条件。 -
虽然预览功能支持多条件筛选,但检索操作最多仅支持三个筛选条件。
注意
对 stream 或 associated_assets 字段进行筛选会因内存密集型计算和数据传输显著增加处理时间。
为获得最佳性能,建议在狭窄时间范围内使用这些筛选条件,并限制额外筛选条件的数量。
-
-
点击 执行搜索 .
若数据湖包含海量数据,预览可能需要较长时间完成。每个用户同时只能运行一个预览任务,且任务执行时间上限为四小时,超时任务将自动失败。
匹配日志将显示在 预览 页面的列表视图组件中。最近预览结果会保留24小时。您可通过调整筛选条件或时间范围后再次点击 执行搜索 来优化结果。
要自定义列表视图,请点击表格右上角的 编辑图标 进行以下操作:
-
添加或删除列。
-
调整列顺序以突出关键字段。
-
若存储数据中存在已知自定义字段,可将其添加至表格。
选择 展开 图标以查看包含该消息所有字段和值的弹窗。您也可以使用页面顶部的 高亮 功能,为字段或值添加颜色标记以便识别。
注意
预览组件最多显示500条结果。处理大型数据集时,请尝试不同筛选组合以定位所需数据。
从预览中提取日志数据
查看日志数据后,可直接从预览界面提取。提供两种提取方式:
-
从完整预览提取
-
点击 提取日志 (位于预览列表右上角)。
此时 提取日志 窗口将自动打开,并预填充当前筛选条件。
-
按需调整设置后点击 提取 .
注意
单次提取任务最多包含三个筛选条件。
-
-
提取选定日志消息
-
在预览结果中勾选需提取的日志消息复选框。
-
选择 批量操作 > 提取日志 .
-
最后点击 提取 在显示所选日志数量的窗口中。
-
您可以从 概览 选项卡跟踪检索进度,位于 数据湖 > 设置 .
检索完成后,您可以通过访问 流 → [您的流] > 数据路由 > 目的地 > 数据湖 > 检索操作 .
从数据湖检索日志
当您需要搜索和分析存储在数据湖中的日志时,必须先将其检索出来,以便写入搜索后端。您可以根据时间范围从特定流中检索日志,并可应用筛选条件缩小检索数据范围。
日志将被恢复到流创建时定义的索引集中。
注意
路由至数据湖但未发送至搜索后端的日志,在检索前不计入许可证使用量。
检索完成后,检索的日志数据将计入许可证使用量。
检索数据索引
当从数据湖检索日志时,恢复的数据会发送至搜索后端并建立索引以供搜索和其他操作使用。
每次检索会创建一个以restored-archive-data-lake为前缀的新索引,后接唯一数字标识符。索引建立后,恢复的数据与最初路由至搜索后端的数据行为一致。
注意
检索数据不会将其从数据湖中移除。恢复数据的副本仍保留在数据湖中存储。
检索日志
要从数据湖中检索日志数据,请按照以下步骤操作:
-
导航至 数据湖 > 设置 > 概览 .
-
找到您要检索日志的流。
-
选择 检索日志 .
-
在对话框中,使用日期和时间选择器设置 时间范围 。
-
在 按原始目标筛选检索 下,选择以下选项之一:
-
必须排除:搜索集群 – 仅从数据湖检索数据(未预先索引的数据)。
-
必须包含:搜索集群 – 仅从搜索后端检索数据(预先索引的数据)。
-
包含全部 – 从两个来源检索数据。
-
-
(可选)添加筛选器以进一步限制检索的日志数据:
-
选择 添加筛选器 ,然后选择字段名称并输入筛选值。
-
最多添加三个筛选器,并使用AND或OR逻辑组合它们。
注意
您无法应用超出可用选项范围的自定义筛选器或查询。更多信息,请参阅 数据湖预览 .
-
-
选择 检索 以启动该流程。
配置检索时,对话框底部会显示预估的搜索数据量。检索过程耗时取决于数据量大小。
启动后,检索任务将出现在 数据湖 > 设置 > 概览 > 数据湖任务 中。检索完成后,日志即可用于搜索和分析。
您也可以在数据湖预览页面检查数据后直接发起检索。
检索完成后,您可通过导航至 流 > [您的流] > 数据路由 > 目的地 > 数据湖 > 检索操作 .