Maple Network Dataset

Maple Dataset is a dataset focus on IDS/IPS, DDoS, malware, VPN, well-obfuscated proxy and more.

Language: English, 简体中文

枫叶数据集

枫叶数据集是用于入侵检测评估的数据集,其目的在于提升异常基础入侵检测系统(IDS)以及入侵预防系统(IPS)的性能与可靠性。在网络攻击愈发复杂的当下,拥有一个可靠且紧跟时代的数据集,对于测试和验证 IDS 及 IPS 解决方案是极其重要的。

且如今的网络攻击手段多样,攻击者常常采用混合式攻击,如同时结合病毒、木马和网络钓鱼等方式。在这种情况下,如果没有高质量的数据集来对 IDS 和 IPS 进行测试,就难以确保其能有效地抵御这些复杂攻击。又如,新出现的零日攻击等未知威胁,更需要借助最新的数据集来训练和验证防护系统,以便及时发现和防范。

枫叶数据集旨在提供最新的、多样化的攻击数据,以帮助研究人员和开发者更好地评估和改进他们的入侵检测和预防系统。我们在大量的服务上生成并采集了恶意流量,包含了最新的 CVE,以及真实世界中存在着的恶意攻击类型。

下载数据集

点击下载

数据集列表:

如何使用

直接使用 CSV 文件

  1. 数据集中提供的 CSV 已经符合了 CIC-IDS 中的列与元信息。
  2. 改动 Python 中加载 *.csv 的名称即可。

从流量文件手动生成 CSV

  1. 准备好上方下载完的数据集流量文件(*.pcap)。
  2. 使用 CICFlowMeter (https://github.com/ahlashkari/CICFlowMeter) 打开。
  3. 选取离线模式,导出为 CSV 文件。

研究背景

传统的评估数据集的攻击流量和利用方式,往往内容过时、流量多样性不足、攻击种类不足、特征不足。重要的是,随着 HTTPS/TLS 加密的普及了,恶意流量被层层加密,无法被安全设备解析。

因此,枫叶数据集提供了一个全面、现代的数据集来供机器学习人员学习恶意流量特征,用于入侵检测研究。

兼容使用CIC-IDS数据集的代码

如果你的代码或模型是用 CIC-IDS 数据集训练或者编写的,那么可以直接更换到枫叶数据集上,我们的格式兼容了 CIC-IDS。

您可以直接使用 CICFlowMeter 这个工具来生成 CSV 文件,输入到机器学习模型中。

无需重写代码或进行其他改动。

数据集类别概览(包含内容)

更多功能即将推出

如果您有任何问题或建议,请给我们反馈。

数据生成

与完全随机的流量不同,我们根据真实世界中用户、端点和流量的行为模式,对流量的结构进行编排配置。在流量加密方法上,基于了 HTTP、HTTPS与SM3/4(中华人民共和国的加密算法)、GOST(俄罗斯联邦的加密算法)进行数据包构造。 模拟了对于 SSH、RESTful API、gRPC、WASM 流量的,这些现代协议及其各种实现等,组成了本数据集的主要部分。

处理工具

在创建数据集的过程中,我们使用了许多自己开发的工具。
它们是开源的,可以从 GitHub 上免费下载。
大部分工具的仓库中都有教程。

工具 描述 链接
pcap2para 从 pcap 文件中提取 HTTP Payload maple-nefu/pcap2para
AnyConnect-Server 生成 SSLVPN 加密流量的脚本 maple-nefu/AnyConnect-Server
ws-traffic-analyze-kit 基于 Rust 语言开发的高性能数据包分析套件 maple-nefu/ws-traffic-analyze-kit
OracleHTTPServer Oracle HTTP Server on Docker maple-nefu/OracleHTTPServer
更多工具即将推出

引用我们的论文

Q. Li, B. Wang, X. Wen, Y. Chen, Cybersecurity situational awareness framework based on ResNet modeling

联系我们

有任何问题或需要帮助,请随时与我们联系:

开源

关于我们使用的开源项目