مقایسه الگوریتم های یادگیری ماشین نظارتی در تشخیص الگوریتم های تولید دامنه شبکه های بات

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی دکترا، گروه مهندسی کامپیوتر، واحد شبستر، دانشگاه آزاد اسلامی، شبستر، ایران

2 استادیار، گروه مهندسی کامپیوتر، واحد شبستر، دانشگاه آزاد اسلامی، شبستر، ایران

3 دانشیار ، عضو هیات علمی دانشگاه علم و صنعت ایران

چکیده

الگوریتم­های تولید دامنه در شبکه­های بات به‌عنوان نقاط ملاقات مدیر بات با خدمت­دهنده فرمان­ و ­کنترل آن‌ها مورداستفاده قرار می­گیرند و می­توانند به‌طور مداوم تعداد زیادی از دامنه­ها را برای گریز از تشخیص توسط روش­های سنتی از جمله لیست سیاه،تولید کنند. شرکت­های تأمین‌کننده امنیت اینترنتی، معمولاً لیست سیاه را برای شناسایی شبکه­های بات و بدافزارها استفاده می­کنند، اما الگوریتم تولید دامنه می‌تواند به‌طور مداوم دامنه را به‌روز کند تا از شناسایی لیست سیاه جلوگیری کند. شناسایی شبکه­های بات مبتنی بر الگوریتم تولید دامنه یک مسئله چالش‌برانگیز در امنیت سامانه­های کامپیوتری است. در این مقاله، ابتدا با استفاده از مهندسی ویژگی­ها، سه نوع ویژگی­ (ساختاری، آماری و زبانی) برای تشخیص الگوریتم­های تولید دامنه استخراج‌شده و سپس مجموعه داده جدیدی از ترکیب یک مجموعه داده با دامنه­های سالم و دو مجموعه داده با الگوریتم­های تولید دامنه بدخواه و ناسالم تولید می­شود. با استفاده از الگوریتم­­های یادگیری ماشین، رده­بندی دامنه­ها انجام‌شده و نتایج به‌صورت مقایسه­ای جهت تعیین نمونه‌ با نرخ صحت بالاتر و نرخ مثبت نادرست کمتر جهت تشخیص الگوریتم‌های تولید دامنه مورد بررسی قرار می­گیرد. نتایج به‌دست آمده در این مقاله، نشان می­دهد الگوریتم جنگل تصادفی، نرخ صحت، نرخ تشخیص و مشخصه عملکرد پذیرنده بالاتری را به ترتیب برابر با 32/89%، 67/91% و 889/0 ارائه می­دهد. همچنین در مقایسه با نتایج سایر الگوریتم­های بررسی شده، الگوریتم جنگل تصادفی نرخ مثبت نادرست پایین­تری برابر با 373/0 نشان می­دهد.

کلیدواژه‌ها


[1]     S. Parsa, H. Mortazi, “Botnet Detection with Flow Behavior Analysis Approach,” Journal of Electronical &Cyber Defence, vol. 5, no. 4, 2017. (In Persian)##
[2]     S. Schiavoni, F. Maggi, L. Cavallaro, and S. Zanero, Phoenix, “DGA-based botnet track- ing and intelligence,” in: Proceedings of the International Conference on Detection of Intrusions and Malware, and Vulnerability Assessment (DIMVA), in: Lecture Notes in Computer Science, 8550, pp. 192–211, 2014.##
[3]     J. Woodbridge, H. S. Anderson, A. Ahuja, and D. Grant, “Predicting domain generation algorithms with long short-term memory networks,” CoRR abs/1611.00791. arXiv:1611.00791, 2016.##
[4]     D. K. McGrath and  M. Gupta, “Behind Phishing: An Examination of Phisher Modi Operandi,” In Proceedings of the First USENIXWorkshop on  Large-Scale Exploits and Emergent Threats, LEET 08, San Francisco, CA,USA, 15 April 2008.##
[5]     L. Bilge, E. Kirda, C. Kruegel, and M. Balduzzi, “EXPOSURE: Finding Malicious Domains Using Passive DNS Analysis,” In Proceedings of the Network and Distributed System Security Symposium, NDSS 2011, San Diego, CA, USA, 6–9 February 2011.##
[6]     J. Ma, L. K. Saul, S. Savage, and G. M. Voelker, “Beyond blacklists: Learning to detect malicious web sites from suspicious URLs,” In Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Paris, pp. 1245–1254, 2009.##
[7]     S. Yadav, A. K. K. Reddy, A. L. N. Reddy, and S. Ranjan, “Detecting algorithmically generated domain-flux attacks with DNS traffic analysis,” IEEE/ACM Trans. Netw., vol. 20, pp. 1663–1677, 2012.##
[8]     M. Antonakakis, R. Perdisci, Y. Nadji, N. Vasiloglou, S. Abu-Nimeh,W. Lee, and D. Dagon, “From    Throw-Away Traffic to Bots: Detecting the Rise of DGA-Based Malware,” In Proceedings of the 21st USENIX Security Symposium, Bellevue, WA, USA, 8–10 August 2012.##
[9]     D. Nhauo and K. Sung-Ryul, “Classification of malicious domain names using support vector machine and bi-gram method,” J. Secur. Appl., vol. 7, pp. 51–58, 2013.##
[10]  K. Demertzis and L. Iliadis, “Evolving smart URL filter in a zone-based policy firewall for detecting algorithmically generated malicious domains,” In International Symposium on Statistical Learning and Data Sciences; Springer:Cham, Switzerland, pp.    223–233, 2015.##
[11]  J. Hagen and S. Luo, “Why domain generation algorithms (DGA)?,” Trend Micro, 18 August 2016.##
[12]  Symantec, W32.Ramnit analysis, Version 1.0,     2015-02-24.##
[13]  J. Geffner, “End-to-end analysis of a domain generating algorithm malware family,” Black Hat USA, 2013.##
[14]  C. E. Shannon, “A Mathematical Theory of Communication,” Bell System Technical Journal, vol. 27, no. 3, pp. 379–423, 1948.##
[15]  M. Mohri, A. Rostamizadeh, and A. Talwalkar, “Foundations of machine learning,” MIT press, 2018.##
[16]  I. Rish, “An empirical study of the naive Bayes classifier,” International Joint Conferences on Artificial Intelligence 2001 Workshop on Empirical Methods in Artificial Intelligence, pp. 41-46, 2001.##
[17]  L. Rokach and O. Z. Maimon, Data mining with decision trees: theory and applications, 2008.##
[18]  J. Harrell and E. Frank, “Regression modeling strategies: with applications to linear models, logistic and ordinal regression, and survival analysis,” Springer, 2015.##
[19]  D. Denisko and M. M. Hoffman, “Classification and interaction in random forests,” in Proceedings of the National Academy of Sciences, vol. 115, no. 8, pp. 1690-1692, 2018.##
[20]  C. Cortes and V. Vapnik, “Support vector networks,” Machine Learning, vol. 20, no. 3, pp. 273–297, 1995.##
[21]  G. Shakhnarovich, T. Darrel, and P. Indyk,    “Nearest-neighbor methods in lea