تشخیص ربات های ناهنجار در پرس وجوهای موتور جستجو

نویسندگان

دانشگاه جامع امام حسین (ع)

چکیده

موتورهای جستجو را می‌توان بهترین ابزار کارآمد برای مدیریت، بازیابی و استخراج اطلاعات مهم از مجموعه عظیم داده‌های وب معرفی کرد. این موتورها پهنه وسیع وب را به‌طور زمان‌بندی‌شده پیمایش می‌کنند و به جمع‌آوری صفحات بی‌شمار ذخیره‌شده در گوشه کنار وب می‌پردازند. ارائه‌دهندگان موتورهای جستجو همواره به دنبال بهبود ارتباط نتایج و کاهش زمان پاسخ به کاربران هستند، اما هر دو این موارد می‌تواند تحت تأثیر ترافیک خودکار ارسال‌شده از سوی ربات‌ها قرار گیرد. در این مقاله ابتدا به تعریف ربات‌ها و چالش تشخیص آن‌ها پرداخته شده است. سپس، روشی با نام بوف برای تشخیص ربات‌های جستجو ارائه شده است. در روش بوف برای دستیابی به دقتی بالا در تشخیص ربات‌های ناهنجار، از پارامترهای مختلف و نسبتاً زیادی برای مدل‌کردن رفتار کاربران استفاده شده است. پس از تعیین اولویت پارامترها در تشخیص ماهیت کاربران، درخت تصمیمی ساخته شده و اقدام به دسته‌بندی کاربران در گروه-های انسان، ربات مخرب، ربات مجاز و نامشخص می‌کند. ربات‌های تشخیص داده‌شده در درخت تصمیم، بخش دیگری از سامانه تشخیص ربات را فعال می‌کند که قادر است با توجه به الگوی رفتاری شبکه‌های رباتی، حتی ربات‌هایی با نرخ درخواست پایین را نیز شناسایی کند. ارزیابی روش پیشنهادی بر روی داد‌های آزمون، صحت 97/7درصدی را در تشخیص ماهیت کاربران نشان می‌دهد که حداقل بهبود دقت 9/9 درصدی را نسبت به روش‌های بررسی‌شده در این حوزه نشان می‌دهد. رقم قابل توجهی که در هر روز تصمیم‌گیری در مورد 2230 کاربر را تحت تاثیر قرار می‌دهد.

کلیدواژه‌ها


A. ZareBidaki and F. KaveYazdi, “Big data management in search engines,” In big data conference, 2015. (In Persian)
C. L. P. Chen and C.-Y. Zhang, “Data-intensive applications, challenges, techniques and technologies: A survey on Big Data,” Inf. Sci. (NY), vol. 275, pp. 314–347, 2014.
F. Yu, Y. Xie, and Q. Ke, “Sbotminer: large scale search bot detection,” In Proceedings of the third ACM international conference on Web search and data mining, pp. 421–430, 2010.
B. Kitts, J. Y. Zhang, G. Wu, W. Brandi, J. Beasley, K. Morrill, J. Ettedgui, S. Siddhartha, H. Yuan, and F. Gao, “Click Fraud Detection: Adversarial Pattern Recognition over 5 Years at Microsoft,” In Real World Data Mining Applications, Springer, pp. 181–201, 2015.
N. Sadagopan and J. Li, “Characterizing typical and atypical user sessions in clickstreams,” In Proceedings of the 17th international conference on World Wide Web, pp. 885–894, 2008.
H. Kang, K. Wang, D. Soukal, F. Behr, and Z. Zheng, “Large-scale bot detection for search engines,” In Proceedings of the 19th international conference on World wide web, pp. 501–510, 2010.
B. Kitts, J. Y. Zhang, A. Roux, and R. Mills, “Click Fraud Detection with Bot Signatures,” in Intelligence and Security Informatics (ISI), 2013 IEEE International Conference, pp. 146–150, 2013.
J. Zhang, Y. Xie, F. Yu, D. Soukal, and W. Lee, “Intention and Origination: An Inside Look at Large-Scale Bot Queries,” in NDSS, 2013.
J. P. John, F. Yu, Y. Xie, A. Krishnamurthy, and M. Abadi, “deSEO: Combating Search-Result Poisoning,” in USENIX security symposium, 2011.
S. Khattak, N. R. Ramay, K. R. Khan, A. Syed, and S. A. Khayam, “A taxonomy of botnet behavior, detection, and defense,” Commun. Surv. Tutorials, IEEE, vol. 16, no. 2, pp. 898–924, 2014.
N. Buzikashvili, “Sliding window technique for the web log analysis,” in the 16th international conference on World Wide Web, pp. 1213–1214, 2007.
Y. Zhang and A. Moffat, “Separating Human and Non-Human Web Queries,” In the Web Information Seeking and Interaction Workshop, pp. 13–16, 2007.
B. J. Jansen, A. Spink, and C. Blakely, “Defining a Session on Web Search Engines,” vol. 58, no. 1998, pp. 862–871, 2007.
N. Daswani and M. Stoppelman, “The Google click quality and security teams,” The anatomy of Clickbot. A,” In the First Workshop in Understanding Botnets, 2007.
J. W. Stokes, G. Buehrer, K. Chellapilla, and J. C. Platt, “Classification of automated search traffic,” In Weaving Services and People on the World Wide Web, Springer Berlin Heidelberg, pp. 3–26, 2009.
O. Duskin and D. G. Feitelson, “Distinguishing humans from robots in web search logs: preliminary results using query rates and intervals,” In Proceedings of the 2009 workshop on Web Search Click Data, pp. 15–19, 2009.
A. Yasmin, M. C. Weigle, and M. L. Nelson, “Access Patterns for Robots and Humans in Web Archives,” in 13th ACM/IEEE-CS joint conference on Digital libraries," ACM, 2013.
M. Srivastava, A. K. Srivastava, R. Garg, and P. K. Mishra, “Comparative Analysis of Robot Detection Techniques on Web Server Log,” Int. J. Adv. Res. Comput. Commun. Eng., vol. 4, no. 9, pp. 186–189, 2015.
W. Dong, X. Lei, Z. Hui, L. Hebing, Z. Hao, and S. Ting, “Web robot detection with semi-supervised learning method,” in 3rd International Conference on Material, Mechanical and Manufacturing Engineering (IC3ME 2015), pp. 2123–2128, 2015.
G. Buehrer, J. W. Stokes, and K. Chellapilla, “A large-scale study of automated web search traffic,” In Proceedings of the 4th international workshop on Adversarial information retrieval on the web, pp. 1–8, 2008.
“https://browscap.org/ua-lookup,” 2016. [Online].
G. Chandrashekar and F. Sahin, “A survey on feature selection methods,” Comput. Electr. Eng., vol. 40, no. 1, pp. 16–28, 2014.
M. SanieiAbade, S. Mahmoodi, and M. Taherparvar, “practical data mining,” 2nd ed. 2014. ( In Persian)
J. Han, M. Kamber, and J. Pei, “Data mining: comcepts and techniques,” 3rd ed. 2011.
“Blacklist Check.” [Online]. Available: http://whatismyipaddress.com/blacklist-check.