استخراج اطلاعات تهدیدات سایبری با استفاده از یادگیری عمیق و بازنمایش دانش

نوع مقاله : مقاله پژوهشی

نویسندگان

1 استادیار گروه مهندسی کامپیوتر، دانشکده فنی مهندسی و علوم پایه، دانشگاه کوثر بجنورد، بجنورد، ایران

2 استادیار گروه مهندسی برق، دانشکده مهندسی برق و کامپیوتر، مجتمع آموزش عالی فنی و مهندسی اسفراین، اسفراین، ایران

چکیده

اطلاعات مربوط به امنیت سایبری به سرعت در اینترنت در حال رشد است و حملات سایبری روز به روز در حال افزایش است. مهاجمان بیشتر بخش‌های نظامی، دولتی و شرکتی را هدف قرار می‌دهند، زیرا این بخش‌ها حاوی اطلاعات حساس و طبقه‌بندی‌شده‌ای هستند که به استراتژی‌های دفاعی مناسب نیاز دارد. استخراج اطلاعات تهدیدات سایبری یعنی استخراج نهادها، روابط بین آن‌ها و رویدادهای موجود در متون سایبری، یکی از گام‌های مهم برای تشخیص حملات سایبری، رویدادهای مضر و کاهش آنها در زمان واقعی در صورت وقوع است. استخراج مؤثر اطلاعات ارزشمند از تهدیدات سایبری می‌تواند به متخصصان امنیتی در تصمیم‌گیری آگاهانه و توسعه استراتژیهای دفاعی قوی کمک کند .همچنین این موضوع یکی از راهکارهای اساسی برای ارتقاء عملکرد سیستم‌هایی نظیرخلاصه‌سازی متون، ترجمه ماشینی و پرسش و پاسخ نیز می‌باشد. هرچند طی چهار دهه گذشته استخراج اطلاعات همواره یک موضوع تحقیقاتی فعال بوده است؛ اما هنوز هم دقت آن در حد قابل قبول نیست و مدل محاسباتی دقیقی برای آن وجود ندارد. در این مقاله ابتدا توسط جدیدترین متد تعبیه واژگان، شبکه بازگشتی دوجهته Bi-GRU، مکانیزم توجه و بازنمایش دانش نهادهای موجود در متن با دقت بالا استخراج می‌شوند؛ سپس با محاسبه میزان اهمیت و وزن هر ویژگی و در نظر گرفتن تمام معیارهای لازم در تصمیم-گیری، عبارات وابسته به نهادها تشخیص داده می‌شود. جهت استخراج دقیق روابط بین نهادها از شبکه‌ عصبی مبتنی بر گراف و تابع هزینه ابتکاری استفاده شده است. برای تشخیص و پیش‌بینی دقیق رویدادهای امنیتی از شبکه عمیق KVP مبتنی بر مکانیزم توجه استفاده شده است که می‌تواند همبستگی بین دو عنصر که موقعیت‌های متفاوتی در یک دنباله ورودی دارند را شناسایی کند. برای بررسی عملکرد روش پیشنهادی شبیه‌سازی‌های گسترده‌ای صورت گرفته است. طبق نتایج شبیه‌سازی، روش پیشنهادی روی پیکره-های CoNLL-2012 و OSINT به ترتیب به امتیاز F1 8/89 و 4/93 درصد دست یافته است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Cyber Threat Information Extraction using Deep Learning and Knowledge Representation

نویسندگان [English]

  • Samira Hourali 1
  • Fatemeh Hourali 2
  • Atefe Pakzad 1
1 Assistant Professor, Department of Computer Engineering, Faculty of Engineering, Kosar University of Bojnord, Bojnord, Iran
2 Assistant Professor, Department of Electrical Engineering, Faculty of Electrical and Computer Engineering, Esfarayen University of Technology, Esfarayen, Iran
چکیده [English]

Cyber security information is rapidly growing on the internet and cyber attacks are increasing daily. Attackers mostly target the military, government, and corporate departments, because these contain sensitive and classified information that requires appropriate defense strategies. Cyber threat information extraction, i.e., extracting entities, relationships between them, and events in cyber texts, is one of the important steps for detecting cyber attacks, harmful events, and mitigating them in real time if they occur. Extracting valuable information from cyber threats can help security professionals to make informed decisions and develop strong defense strategies. It is also a fundamental solution for improving the performance of systems such as text summarization, machine translation, and question-answering. Although information extraction has been an active research topic over the past four decades, its accuracy is still not acceptable and there is no accurate computational model for it. In this paper, first, the entities in the text are extracted with high accuracy using the latest vocabulary embedding method, the Bi-GRU bidirectional recurrent network, the attention mechanism, and the knowledge representation; Then, expressions related to the entities are recognized by calculating the importance and weight of each feature and considering all the necessary criteria in decision-making. The entities relationships were extracted by a graph-based neural network and a heuristic loss function. The KVP deep network based on the attention mechanism has been used for accurate detection and security events prediction which can identify the correlation between two elements that have different positions in the input sequence. Extensive simulations have been carried out to check the performance of the proposed method. According to the simulation results, the proposed method has achieved 89.8% and 93.4% F1 scores on CoNLL-2012 and OSINT datasets, respectively.

کلیدواژه‌ها [English]

  • Information extraction
  • cyber threats
  • entity relationships
  • event extraction
  • deep learning
  • knowledge representation

Smiley face

 

  • تاریخ دریافت: 27 فروردین 1404
  • تاریخ بازنگری: 04 خرداد 1404
  • تاریخ پذیرش: 26 خرداد 1404
  • تاریخ انتشار: 20 تیر 1404