In this section, we show the details of the dataset
and some important outcomes that we obtained
analyzing the data and discuss some difficulties of
developing the DDoS attack detection system by
comparing the data analysis of the attacker and
victims [1].
3.1. DDoS Dataset
To develop a DDoS attack detection system
utilizing machine learning techniques and
algorithms, we need an actual DDoS dataset to detect
and learn patterns of DDoS attack. However, we do
not have such dataset and in any study on DDoS
attacks, collecting data is a challenging task: It is
difficult for any researcher to collect appropriate
datasets of actual DDoS attacks. However, there are
some alternative methods. One of them is to set up
an environment that can generate simulated network
communication data. We can use tools such as NS-2,
Qualnet, or OMNet++. However, in this study, the
goal is to develop a detection system that can predict
a forthcoming attack and detect the attack before the
bandwidth is exhausted by using machine learning
techniques. Some institutions provide such datasets.
The 2000 U.S. Defense Advanced Research Projects
Agency (DARPA) Intrusion Detection Evaluation
Dataset and Knowledge Discovery and Data Mining
(KDD) Cup 1999 Dataset are the most popular
publicly available datasets, but the first one was
created prior to ten years and the second one is not
suitable for DDoS attacks [10]. We used CAIDA
DDoS Attack 2007 Dataset to analyze the actual
DDoS attack data and utilize them for training data
patterns [1].
This dataset contains approximately one hour of
anonymized traffic traces that include the attack
traffic on the victims and the response from the
victims on August 4, 2007. The total size of the
original dataset is 21 gigabytes. The type of the file
is the packet capture file. Since there are few
applications to read these data, we exported all the
data to comma-separated value files for easy data
reading in any programming language and machine.
The total size of final dataset increased to 44
gigabytes and the total number of packets we
analyzed was 359,655,765 from the attacker and
12,131,655 from the victim.
3.2. Data Analysis
The size of the dataset that we obtained is big and
analyzing all data takes very long time. So, to
analyze the dataset efficiently and quickly, we
extracted some features including source IP address,
destination IP address, time interval in seconds
between packets, and packet size in bytes from the
dataset. We analyzed the total number of packets that
were sent from the attacker and victim, the mean
time intervals in seconds, and mean packet size in
bytes for each packet. Table 1 shows the summary of
dataset statistics for each feature from the attacker
and victim. Figure 1 shows that the most common
mean packet size for each IP address is almost the
same for the attacker and victim. In addition, the
maximum and minimum packet sizes are 1,500 and
46 bytes for the attacker and 1,474 and 40 bytes for
the victim. Figure 2 shows the packet flow of the
total victim’s packets and 12,895,257 (3.5%) of the
attacker’s packets. This 3.5% of packets are
generated by the uniform random number block.
These results show that there are no significant
differences distinguishing attack packets from
normal packets except for the total number of
packets. Therefore, detecting DDoS attacks from
individual packet data is extremely difficult, because
Trong phần này, chúng tôi hiển thị các chi tiết của bộ dữ liệuvà một số kết quả quan trọng mà chúng tôi thu đượcphân tích dữ liệu và thảo luận về một số khó khăn củaphát triển hệ thống phát hiện tấn công DDoS bởiso sánh phân tích dữ liệu của những kẻ tấn công vànạn nhân [1].3.1. DDoS bộ dữ liệuĐể phát triển một hệ thống phát hiện tấn công DDoSsử dụng máy học tập kỹ thuật vàthuật toán, chúng tôi cần một bộ dữ liệu DDoS thực tế để phát hiệnvà tìm hiểu các mô hình của cuộc tấn công DDoS. Tuy nhiên, chúng tôi làmkhông có số liệu như vậy và trong bất kỳ nghiên cứu DDoScuộc tấn công, thu thập dữ liệu là một nhiệm vụ đầy thách thức: đó làkhó khăn cho bất kỳ nhà nghiên cứu để thu thập thích hợpdatasets thực tế cuộc tấn công DDoS. Tuy nhiên, có nhữngmột số phương pháp thay thế. Một trong số họ là để thiết lậpmột môi trường có thể tạo ra mạng mô phỏngdữ liệu truyền thông. Chúng tôi có thể sử dụng các công cụ như NS-2,Qualnet, hoặc OMNet c++. Tuy nhiên, trong nghiên cứu này, cácmục tiêu là để phát triển một hệ thống phát hiện có thể dự đoánsắp tới một tấn công và phát hiện các cuộc tấn công trước khi cácbăng thông cạn kiệt bằng cách sử dụng máy họckỹ thuật. Một số các tổ chức cung cấp các datasets.Bộ quốc phòng Hoa Kỳ năm 2000 nâng cao nghiên cứu dự ánĐánh giá phát hiện xâm nhập cơ quan (DARPA)Số liệu và kiến thức khám phá và khai thác dữ liệu(KDD) Cúp quốc gia năm 1999 số liệu là phổ biến nhấtkhai datasets, nhưng một trong những đầu tiêntrước khi tạo ra mười năm và điều thứ hai là khôngthích hợp cho cuộc tấn công DDoS [10]. Chúng tôi sử dụng CAIDADDoS tấn công năm 2007 bộ dữ liệu để phân tích thực tếDDoS tấn công dữ liệu và sử dụng chúng cho dữ liệu đào tạoMô hình [1].Số liệu này chứa khoảng một giờ củadấu vết ẩn danh lưu lượng truy cập bao gồm các cuộc tấn cônggiao thông trên các nạn nhân và các phản ứng từ cácnạn nhân ngày 3 tháng 8 năm 2009. Tổng kích thước của cácsố liệu ban đầu là 21 gigabyte. Loại tệplà tập tin gói chụp. Kể từ khi có vàiCác ứng dụng để đọc những dữ liệu này, chúng tôi xuất khẩu tất cả cáccác dữ liệu giá trị phân tách bằng dấu phẩy tập tin cho dữ liệu dễ dàngđọc trong bất kỳ ngôn ngữ lập trình và máy.Tổng kích thước của bộ dữ liệu cuối cùng tăng lên 44Gigabyte và tổng số gói chúng tôiphân tích là 359,655,765 từ những kẻ tấn công và12,131,655 từ các nạn nhân.3.2. dữ liệu phân tíchKích thước của bộ dữ liệu mà chúng tôi thu được là lớn vàphân tích dữ liệu tất cả mất thời gian rất dài. Vì vậy, đểphân tích bộ dữ liệu hiệu quả và nhanh chóng, chúng tôitrích xuất một số tính năng bao gồm các địa chỉ IP nguồn,địa chỉ IP đích, khoảng thời gian trong giâygiữa các gói dữ liệu, và gói kích thước theo byte từ cácbộ dữ liệu. Chúng tôi phân tích tổng số gói màđược gửi từ những kẻ tấn công và nạn nhân, Trung bìnhkhoảng thời gian trong giây, và có nghĩa là gói kích thước trongbyte cho mỗi gói tin. Bảng 1 cho thấy tóm tắt củasố liệu thống kê cho mỗi tính năng từ những kẻ tấn côngvà nạn nhân. Hình 1 cho thấy rằng phổ biến nhấtcó nghĩa là kích thước gói cho mỗi địa chỉ IP là hầu hết cáctương tự cho kẻ tấn công và nạn nhân. Ngoài ra, cácKích thước tối đa và tối thiểu gói là 1.500 và46 byte cho kẻ tấn công và 1.474 và 40 byte choCác nạn nhân. Hình 2 cho thấy dòng gói của cácTổng số nạn nhân của gói và 12,895,257 (3.5%) của cácgói tin của kẻ tấn công. Này 3,5% của gói tinđược tạo ra bởi khối số ngẫu nhiên thống nhất.Các kết quả cho thấy rằng có được không đáng kểsự khác biệt phân biệt tấn công gói tin từCác gói tin bình thường ngoại trừ tổng sốgói tin. Do đó, phát hiện các cuộc tấn công DDoSdữ liệu cá nhân gói là vô cùng khó khăn, bởi vì
đang được dịch, vui lòng đợi..

Trong phần này, chúng tôi cho thấy các chi tiết của các bộ dữ liệu
và một số kết quả quan trọng mà chúng tôi thu được
phân tích dữ liệu và thảo luận về một số khó khăn trong
việc phát triển các hệ thống phát hiện tấn công DDoS bằng
cách so sánh các phân tích dữ liệu của những kẻ tấn công và
nạn nhân [1].
3.1. DDoS Dataset
Để phát triển một hệ thống phát hiện tấn công DDoS
sử dụng kỹ thuật máy học và
thuật toán, chúng ta cần một DDoS dataset thực tế để phát hiện
và tìm hiểu mô hình của tấn công DDoS. Tuy nhiên, chúng tôi
không có số liệu như vậy và trong bất kỳ nghiên cứu về DDoS
tấn công, thu thập dữ liệu là một nhiệm vụ đầy thách thức: Đó là
khó khăn đối với bất kỳ nhà nghiên cứu thu thập phù hợp
bộ dữ liệu của các cuộc tấn công DDoS thực tế. Tuy nhiên, có
một số phương pháp thay thế. Một trong số đó là thiết lập
một môi trường mà có thể tạo ra mạng mô phỏng
dữ liệu thông tin liên lạc. Chúng tôi có thể sử dụng các công cụ như NS-2,
Qualnet, hoặc OMNet ++. Tuy nhiên, trong nghiên cứu này,
mục tiêu là phát triển một hệ thống phát hiện rằng có thể dự đoán
một cuộc tấn công sắp tới và phát hiện các cuộc tấn công trước khi
băng thông rất mệt do sử dụng máy học
kỹ thuật. Một số tổ chức cung cấp các bộ dữ liệu như vậy.
Các 2.000 US Defense Advanced Research Projects
Agency (DARPA) Intrusion Detection Đánh giá
Dataset và kiến thức Discovery and Data Mining
(KDD) Cup 1999 Dataset là phổ biến nhất
bộ dữ liệu được công bố, nhưng một trong những đầu tiên được
tạo ra trước khi đến mười năm và thứ hai là không
thích hợp cho các cuộc tấn công DDoS [10]. Chúng tôi sử dụng Caida
DDoS tấn công 2007 Dataset để phân tích thực tế
dữ liệu DDoS tấn công và sử dụng chúng cho dữ liệu huấn luyện
mô hình [1].
Bộ dữ liệu này bao gồm khoảng một giờ của
các dấu vết lưu lượng truy cập ẩn danh mà bao gồm các cuộc tấn công
giao thông trên các nạn nhân và các phản ứng từ các
nạn nhân trên ngày 04 tháng 8, 2007. Tổng kích thước của các
tập dữ liệu ban đầu là 21 gigabyte. Các loại file
là file capture gói. Vì có vài
ứng dụng để đọc các dữ liệu, chúng tôi xuất khẩu tất cả các
dữ liệu vào các tập tin có giá trị bằng dấu phẩy để dễ dàng dữ liệu
đọc trong bất kỳ ngôn ngữ và máy lập trình.
Kích thước tổng của số liệu cuối cùng tăng lên đến 44
GB và tổng số các gói tin, chúng tôi
đã phân tích là 359.655.765 từ kẻ tấn công và
12.131.655 từ các nạn nhân.
3.2. Phân tích dữ liệu
Kích thước của tập dữ liệu mà chúng tôi thu được là lớn và
phân tích tất cả dữ liệu mất thời gian rất dài. Vì vậy, để
phân tích dữ liệu một cách hiệu quả và nhanh chóng, chúng tôi
rút ra một số tính năng bao gồm địa chỉ IP nguồn,
địa chỉ đích, khoảng thời gian trong vài giây
giữa các gói tin, và kích thước gói tin trong byte từ
bộ dữ liệu. Chúng tôi đã phân tích tổng số gói tin
được gửi đi từ những kẻ tấn công và nạn nhân, trung bình
khoảng thời gian trong vài giây, và có nghĩa là kích thước gói tin trong
byte cho mỗi gói. Bảng 1 cho thấy các bản tóm tắt
thống kê số liệu cho mỗi tính năng từ những kẻ tấn công
và nạn nhân. Hình 1 cho thấy phổ biến nhất
gói kích thước trung bình cho mỗi địa chỉ IP là gần như
tương tự cho những kẻ tấn công và nạn nhân. Ngoài ra,
kích thước tối đa và tối thiểu là 1.500 gói và
46 byte cho những kẻ tấn công và 1.474 và 40 byte cho
các nạn nhân. Hình 2 cho thấy lưu lượng gói tin của các
gói tin tổng nạn nhân và 12.895.257 (3,5%) của các
gói tin của kẻ tấn công. Đây 3,5% của gói tin được
tạo ra bởi các khối số ngẫu nhiên thống nhất.
Kết quả cho thấy không có ý nghĩa
khác nhau phân biệt các gói tin tấn công từ
các gói tin bình thường, ngoại trừ cho tổng số các
gói tin. Vì vậy, việc phát hiện các cuộc tấn công DDoS từ
dữ liệu gói cá nhân là vô cùng khó khăn, bởi vì
đang được dịch, vui lòng đợi..
