ページ ツリー

ベンチマークデータとマルウェア情報の2種類を用意しております。



ベンチマークデータ

NII-SOCS参加機関のトラフィックデータの一部を抽出してランダム化したベンチマークと、NII-SOCS攻撃検知システムの警報データのセット。

トラフィックデータは、通信の内容であるペイロードを含まないKyotoData2016フォーマット[1][2]に準拠した形に整形されております。


  ベンチマークデータは、以下のファイルで構成されます

ファイル名説明更新
KYOTODATA-X_yyyyMMdd.txt

ベンチマークデータ本体。通信の内容であるペイロードを含まないKyotoData2016フォーマット[1][2]に準拠した形に整形し、元データに関連した参加機関側の機器が特定され難いよう、ランダム化したファイル。

翌日1回のみ
DETECTION-SUMMARY-X_yyyyMMdd.txt

検出サマリファイル。

NII-SOCSの検知システムで検知した警報(PaloaltoのThreat ID/Cisco FirepowerのGID_SID_REV)と括弧書きでセッションごとの検知回数を表記。


AUDITDATA-SNORT-X_yyyyMMdd.txt

Snort事後検証ファイル。

SnortのGID-SID-REV、および、1セッションで2回以上の検知があった場合はその回数を括弧書きで表記。

翌日~50日後まで1週間おき
ZERODAY-SNORT-X_yyyyMMdd.txt

Snortゼロデイファイル。

ベンチマーク全体で初めて検知した検知ルール:GID-SID-REV 0

翌日の検査では未検知かつ2または5週目に検知した検知ルール:GID-SID-REV 1

5週目の検査までは未検知かつ6週目以降の検査で検知ルール:GID-SID-REV 2

と表記。(無償版snortでは検知ルールの提供が30日程度遅れることがあるため。)

該当レコードがあれば更新
ZERODAY_COUNT-SNORT-X_yyyyMMdd.txt

Snort件数ファイル。

ベンチマーク全体で初めて検知した件数(snort_new)、翌日の検査では未検知かつ2または5週目の検査で検知した件数(snort_2_5)、5週目の検査までは未検知かつ6週目以降の検査で検知した件数(snort_6_8)を表記。

該当レコードがあれば更新
AUDITDATA-CLAMAV-X_yyyyMMdd.txt

ClamAVの事後検証ファイル。

ClamAVで検知したマルウェアの名称、および、1セッションで2回以上の検知があった場合はその回数を括弧書きで表記。

翌日~50日後まで1週間おき
ZERODAY-CLAMAV-X_yyyyMMdd.txt

ClamAVゼロデイファイル。

ベンチマーク全体で初めて検知したマルウェア:マルウェア名称 0

翌日の検査では未検知かつ2週目以降に検知したマルウェア:マルウェア名称 1

該当レコードがあれば更新
ZERODAY_COUNT-CLAMAV-X_yyyyMMdd.txt

ClamAV件数ファイル。

ベンチマーク全体で初めて検知した件数(ClamAV_new)、翌日の検査では未検知かつ2週目以降の検査で検知した件数(ClamAV_2_8)を表記。

該当レコードがあれば更新
AUDITDATA-SHELLCODE-X_yyyyMMdd.txtShellcode事後検証ファイル。ShellocdeのID、および、1セッションで2回以上の検知があった場合はその回数を括弧書きで表記。翌日1回のみ

※ X:元データを取得した拠点のコード yyyyMMdd:元データの通信日

ランダム化処理方法

  1. 毎日、以下の条件でトラフィックデータを抽出(pcapファイルの生成)
    1. 参加機関のIPアドレス領域から/24(IPv4)または/64(IPv6)のブロックをランダムに複数選択。(IPv4、IPv6ともに10ブロック程度、このセットを7日間使用する。)
    2. 00時00分00秒から23時00分00秒の間からランダムに30分間の枠を二つ選択。
  2. 観測対象時刻のトラフィックデータのタイムスタンプを当該日の0時0分0秒から0時29分59秒と12時0分0秒から12時29分59秒に振り直す。
  3. 送信元IPアドレス/受信先IPアドレスをIPv6形式のランダムなIPアドレス領域に振り直す。
    1. IPv4は/24、IPv6は/32の範囲内のIPアドレスの連続性を維持する。
    2. ランダム化処理に使用するseedは定期的に変更する。
  4. ポート番号についてはwell-known port(1024未満)はそのままとし、それ以外をランダムな値に振り直す。
    1. ランダム化処理に使用するseedは7日おきに変更する。
  5. 他はKyotoData2016[1][2]に準拠した統計データとし、ペイロードやDNS名は含まない。

更新時系列について

通信データ(KYOTODATA-X_yyyyMMdd.txt)と、その通信を各種検知システムで検証した結果ファイルを1セットとして提供します。

Shellcodeは検知後1回のみ、ClamAVとSnortは、通信日から50日後まで1週間おきに繰り返し検証を行い、検知結果を経過も含めて提供します。


kyoto_data

KYOTODATA-X_yyyyMMdd.txt

項目の説明

Session IDセッションID
Durationセッションの継続時間
Serviceサービスの種類
Source_Bytes送信バイト数
Destionation_Bytes受信バイト数
Count過去2 秒間のセッションのうち現在のセッションと宛先IPアドレスが同じ数
Same_srv_rateCount特徴で該当したセッションのうち現在のセッションとサービスの種類が同じ割合
Serror_rateCount特徴で該当したセッションのうちSYNエラーが起こった割合
Srv_serror_rate過去2 秒間のセッションで現在のセッションとサービス種類が同じセッションのうち,”SYN"エラーが起こった割合
Dst_host_count宛先ポートが同じ過去の100 セッションのうち,現在のセッションと送信元IP アドレスと宛先IP アドレスが同じ数 
Dst_host_srv_count宛先ポートが同じ過去の100 セッションのうち,現在のセッションと宛先IP アドレスとサービス種類が同じ数
Dst_host_same_src_port_rateDst_host_count特徴で該当したセッションのうち現在のセッションと送信元ポートが同じ割合:
Dst_host_serror_rateDst_host_count特徴で該当したセッションのうち”SYN"エラーが起こった割合
Dst_host_srv_serror_rateDst_host_srv_count特徴で該当したセッションのうち”SYN"エラーが起こった割合
Flagセッション終了時の接続の状態
Source_IP_Address送信元IPアドレス※ランダム化処理済
Source_Port_Number送信元ポート番号 ※well-known port(1024未満)はそのままとし、それ以外はランダム化処理済
Destination_IP_Address宛先IPアドレス ※ランダム化処理済
Destination_Port_Number宛先ポート番号 ※well-known port(1024未満)はそのままとし、それ以外はランダム化処理済
Start_Timeセッション開始時刻 ※開始時間変更済
Protocolプロトコル種別


データ例

Session ID


Duration

Service

Source_Bytes

Destionation_Bytes

Count

Same_srv_rate

Serror_rate

Srv_serror_rate

Dst_host_count

Dst_host_srv_count

Dst_host_same_src_port_rate

Dst_host_serror_rateDst_host_srv_serror_rate

Flag

Source_IP_Address
(ランダム化済)
Source_Port_Number
(1024以上のポートをランダム化済)
Destination_IP_Address
(ランダム化済)
Destination_Port_Number
(1024以上のポートをランダム化済)

Start_Time
(開始時刻変更済)

Protocol
189226217170-000000.98040300000S00:0:0:7efe:23d9:fefe:a00:e2d4368070:0:0:cf00:23e8:7171:1008:e1e8627612020/3/1  12:00:00.00246udp
189226217180-000000.98040300000S00:0:0:80:2de7:fe88:9d88:fe32626330:0:0:f01:e3e7:b6f1:86ff:15c232020/3/1  12:00:00.00251tcp
189226217190-000000.98040300000S00:0:0:4100:1226:3902:93cf:fdbd153940:0:0:f082:33d9:c900:e687:fdd3136232020/3/1  12:00:00.00314tcp
189226217200-000000.98040200000S00:0:0:e83:ece7:8605:1c30:e13463930:0:0:ff7e:3329:c68f:9b0:e1b723232020/3/1  12:00:00.00342tcp
189226217210-001110.98040200000S00:0:0:cf7f:ec27:c1fd:91b0:fdd8229380:0:0:bf7c:23d8:179:e9b7:e15b252020/3/1  12:00:00.00380tcp
189226217220-000000.98040200000S00:0:0:cf03:dd27:be8b:8f77:106588540:0:0:3f02:2d6:3e03:e400:1e2777502020/3/1  12:00:00.00434tcp
189226217230-000000.98041900000S00:0:0:f080:319:89f9:b87:fe3f317940:0:0:30fd:c3e6:3e09:13f7:1dd56962020/3/1  12:00:00.00380tcp
189226217240-000000.98043600000S00:0:0:cf7f:ec27:c1fd:91b0:fdd8229380:0:0:8e81:e217:f68a:68c7:e1e2559932020/3/1  12:00:00.00434tcp
189226217250-000000.98043600000S00:0:0:4100:1226:3902:93cf:fdbd153940:0:0:ce81:f2e8:6f6:6a07:fd01535372020/3/1  12:00:00.00457tcp
189226217260-000000.98043700000S00:0:0:ceff:f218:1fa:dc7:fe04471720:0:0:e83:fdd9:860c:e577:11748002020/3/1  12:00:00.00480udp
189226217270-000000.98043600000S00:0:0:4100:1226:3902:93cf:fdbd153940:0:0:cf01:dce9:c182:fd4f:1dfa252020/3/1  12:00:00.00634tcp
189226217280-000000.98043700000S00:0:0:7efe:23d9:fefe:a00:e2d4573320:0:0:c101:e218:4981:92c0:224627612020/3/1  12:00:00.00648udp
189226217290-000000.98043500000S00:0:0:cf7f:ec27:c1fd:91b0:fdd8229380:0:0:fefe:1c26:767f:1db7:1f5232020/3/1  12:00:00.00659tcp
189226217300-000000.98043600000S00:0:0:cf7f:d228:6f9:9bf0:1e62343910:0:0:3f03:f2e9:b9ff:a48:e2cc882020/3/1  12:00:00.00783tcp
189226217310-000000.98043600000S00:0:0:ceff:f218:1fa:dc7:fe0465400:0:0:3e80:2dd7:c10c:9c07:1e42262452020/3/1  12:00:00.00832udp
189226217320-000000.98043500000S00:0:0:cf03:dd27:be8b:8f77:106588540:0:0:feff:ede9:be02:f5cf:1db5252020/3/1  12:00:00.00842tcp
189226217330-000000.98045300000S00:0:0:7efe:23d9:fefe:a00:e2d4388170:0:0:7100:2316:390c:6e38:1e67627612020/3/1  12:00:00.00901udp
189226217340-000000.98045300000S00:0:0:f0fd:fc17:b101:7bc7:fe63610590:0:0:efc:d26:988:8408:1d22352552020/3/1  12:00:00.00924tcp
189226217350-000000.98045300000S00:0:0:417f:d2e8:909:8780:2cc185310:0:0:f080:2318:4686:6c78:1ea5303542020/3/1  12:00:00.01002tcp
189226217363.002422-0060110.980453093001S00:0:0:70fe:de9:86f4:6bf0:e243216170:0:0:b17d:fd16:3e87:e6c8:e1a153402020/3/1  12:00:00.01013tcp



検出サマリ

DETECTION-SUMMARY-X_yyyyMMdd.txt

項目の説明

Session ID 検証結果

セッションID

セッションの詳細はkyoto_dataをご確認下さい。

NII-SOCSの検知システムで検知した警報。

PaloaltoのThreat ID / Cisco FirepowerのGID_SID_REV) と括弧書きでセッションごとの検知回数を表記。


データ例

Session ID検証結果
1892262172658483(1)
189226217341_54794_2(1),58706(1)



Snort

無償版IDSであるsnortを用いた検知結果

AUDITDATA-SNORT-X_yyyyMMdd.txt

項目の説明

Session ID 1日後2週目(8日後)

セッションID

セッションの詳細はkyoto_dataをご確認下さい。

セッションの1日後にSnortで検証した結果。

SnortのGID-SID-REV、および、1セッションで2回以上の検知があった場合はその回数を括弧書きで表記。

セッションの8日後にSnort検証した結果。セッションのn日後にSnort検証した結果。


データ例

Session ID \ 検証1日後2週目(8日後)3週目(15日後)4週目(22日後)5週目(29日後)6週目(36日後)7週目(43日後)8週目(50日後)
189226217201-31136-2,1-23493-61-31136-2,1-23493-61-31136-2,1-23493-61-31136-2,1-23493-61-31136-2,1-23493-61-31136-2,1-23493-61-31136-2,1-23493-61-31136-2,1-23493-6
189226217261-42016-2 1-42016-2 1-42016-2 1-42016-2 1-42016-2 1-42016-2 1-42016-2 1-42016-2 
18922621734129-12-1(2)129-12-1(2)129-12-1(2)129-12-1(2)129-12-1(2)129-12-1(2)129-12-1(2)129-12-1(2)


ZERODAY-SNORT-X_yyyyMMdd.txt

項目の説明

合致したルール名フラグ情報

GID-SID-REV

ベンチマーク全体で初めて検知した検知ルール:0

翌日の検査では未検知かつ2または5週目に検知した検知ルール:1

5週目の検査までは未検知かつ6週目以降の検査で検知ルール: 2

データ例

合致したルール名フラグ情報
1-42016-1 0
1-53026-1 1
1-79018-12


ZERODAY_COUNT-SNORT-X_yyyyMMdd.txt

項目の説明

snort_newベンチマーク全体で初めて検知した件数
snort_2_5

翌日の検査では未検知かつ2〜5週目の検査で検知した件数

snort_6_8

5週目の検査までは未検知かつ6週目以降の検査で検知した件数

NII-SOCSではsnortの無償版を利用している。

Snortの無償版は、有償版よりルールセットの提供が30日遅れる(Snort>Snort FAQ>What are the differences in the rule sets? )ため、

6週目で検知できず、7週目以降に検知できた場合は、有償版でも当初は検知できなかったセロデイ攻撃とみなすことができる。

データ例


件数
snort_new0
snort_2_50
snort_6_80

ClamAV

無償版アンチウィルスであるClamAVを用いた検知結果

AUDITDATA-CLAMAV-X_yyyyMMdd.txt

項目の説明

Session ID 1日後2週目(8日後)

セッションID

セッションの詳細はkyoto_dataをご確認下さい。

セッションの1日後にClamAVで検証した結果。

ClamAVで検知したマルウェアの名称、および、1セッションで2回以上の検知があった場合はその回数を括弧書きで表記。

セッションの8日後にClamAVで検証した結果。セッションのn日後にClamAVで検証した結果。

データ例

Session ID \ 検証1日後2週目(8日後)3週目(15日後)4週目(22日後)5週目(29日後)6週目(36日後)7週目(43日後)8週目(50日後)
18922621721Email.Exploit.Efail-6543463-0(2)Email.Exploit.Efail-6543463-0(2)Email.Exploit.Efail-6543463-0(2)Email.Exploit.Efail-6543463-0(2)Email.Exploit.Efail-6543463-0(2)Email.Exploit.Efail-6543463-0(2)Email.Exploit.Efail-6543463-0(2)Email.Exploit.Efail-6543463-0(2)
18922621727Email.Exploit.Efail-6543463-0 Email.Exploit.Efail-6543463-0 Email.Exploit.Efail-6543463-0 Email.Exploit.Efail-6543463-0 Email.Exploit.Efail-6543463-0 Email.Exploit.Efail-6543463-0 Email.Exploit.Efail-6543463-0 Email.Exploit.Efail-6543463-0 
18922621732--Win.Trojan.Hide-1   Win.Trojan.Hide-1   Win.Trojan.Hide-1   Win.Trojan.Hide-1   Win.Trojan.Hide-1   Win.Trojan.Hide-1   

ZERODAY-CLAMAV-X_yyyyMMdd.txt

項目の説明

マルウェア名フラグ情報
合致したマルウェアの名称

ベンチマーク全体で初めて検知したマルウェア:マルウェア名称 0

翌日の検査では未検知かつ2週目以降に検知したマルウェア:マルウェア名称 1

データ例

マルウェア名フラグ情報
Doc.Dropper.EmotetUpdate1020-9778523-00


ZERODAY_COUNT-CLAMAV-X_yyyyMMdd.txt

項目の説明

ClamAV_newベンチマーク全体で初めて検知した件数
ClamAV_2_8

翌日の検査では未検知かつ2週目以降の検査で検知した件数

初回で検知できず2週目以降に検知できた場合は、当初は検知できなかったセロデイ攻撃とみなすことができる。

データ例


件数
ClamAV_new0
ClamAV_2_81



Shellcode

外部権限取得(remote exploit)プログラム[3]の有無判定の検知結果

AUDITDATA-SHELLCODE-X_yyyyMMdd.txt

項目の説明

Session ID ShellcodeID

セッションID

セッションの詳細はkyoto_dataをご確認下さい。

セッションの1日後にShellcode検証した結果。

ShellcodeのID(確認順に採番)

データ例

Session IDShellcodeID
1892262171811
1892262172912





マルウェア情報

NII-SOCSで観測したマルウェア検体、および、その検体のNII-SOCSのサンドボックスの解析結果。

提供するマルウェア情報の選定条件は以下のものとなります。

    • exe、dll、dmg、apk、javascript、swfなどからなる実行形式ファイル (※pdf, office系など文書系ファイルは提供しない)
    • 5機関以上の通信で検知があったもの


  マルウェア情報は、以下のファイルで構成されます

フォルダ名説明
 malware/

マルウェアファイル(検体)。

マルウェアファイルをパスワード付zip形式で圧縮したファイルです。解凍時のパスワードはreadme内にあります。

analysis/

マルウェアファイル挙動解析ファイル。

挙動解析結果ファイルをzip形式で圧縮したファイルです。

readme/Shellcode事後検証ファイル。

※ 最上位フォルダの名前は該当マルウェアのハッシュ値となっています




[1] Jungsuk Song, Hiroki Takakura and Yasuo Okabe, “Cooperation of Intelligent Honeypots to Detect Unknown Malicious Codes,” WOMBAT Workshop on Information Security Threat Data Exchange (WISTDE 2008), Amsterdam, Netherlands, 21-22 April 2008.

[2] 多田竜之介, 小林良太郎, 嶋田創, 高倉弘喜, NIDS評価用データセット: Kyoto 2016 Datasetの作成, 情報処理学会論文誌, Vol.58, No.9, pp.1450-1463, 2017年9月.

[3] 野川裕記, 足立史宜, 辻野泰充, 守屋誠司, 齋藤和典, エクスプロイトコードの中のシェルコード検知 : 構造分析に基づいた検知手法, 電子情報通信学会技術研究報告. IA, インターネットアーキテクチャ 109(85), pp.7-12, 2009年6月.

  • ラベルがありません