موتورهای جستجو را میتوان بهترین ابزار کارآمد برای مدیریت، بازیابی و استخراج اطلاعات مهم از مجموعه عظیم دادههای وب معرفی کرد. این موتورها پهنه وسیع وب را بهطور زمانبندیشده پیمایش میکنند و به جمعآوری صفحات بیشمار ذخیرهشده در گوشه کنار وب میپردازند. ارائهدهندگان موتورهای جستجو همواره به دنبال بهبود ارتباط نتایج و کاهش زمان پاسخ به کاربران هستند، اما هر دو این موارد میتواند تحت تأثیر ترافیک خودکار ارسالشده از سوی رباتها قرار گیرد. در این مقاله ابتدا به تعریف رباتها و چالش تشخیص آنها پرداخته شده است. سپس، روشی با نام بوف برای تشخیص رباتهای جستجو ارائه شده است. در روش بوف برای دستیابی به دقتی بالا در تشخیص رباتهای ناهنجار، از پارامترهای مختلف و نسبتاً زیادی برای مدلکردن رفتار کاربران استفاده شده است. پس از تعیین اولویت پارامترها در تشخیص ماهیت کاربران، درخت تصمیمی ساخته شده و اقدام به دستهبندی کاربران در گروه-های انسان، ربات مخرب، ربات مجاز و نامشخص میکند. رباتهای تشخیص دادهشده در درخت تصمیم، بخش دیگری از سامانه تشخیص ربات را فعال میکند که قادر است با توجه به الگوی رفتاری شبکههای رباتی، حتی رباتهایی با نرخ درخواست پایین را نیز شناسایی کند. ارزیابی روش پیشنهادی بر روی دادهای آزمون، صحت 97/7درصدی را در تشخیص ماهیت کاربران نشان میدهد که حداقل بهبود دقت 9/9 درصدی را نسبت به روشهای بررسیشده در این حوزه نشان میدهد. رقم قابل توجهی که در هر روز تصمیمگیری در مورد 2230 کاربر را تحت تاثیر قرار میدهد.
A. ZareBidaki and F. KaveYazdi, “Big data management in search engines,” In big data conference, 2015. (In Persian)
C. L. P. Chen and C.-Y. Zhang, “Data-intensive applications, challenges, techniques and technologies: A survey on Big Data,” Inf. Sci. (NY), vol. 275, pp. 314–347, 2014.
F. Yu, Y. Xie, and Q. Ke, “Sbotminer: large scale search bot detection,” In Proceedings of the third ACM international conference on Web search and data mining, pp. 421–430, 2010.
B. Kitts, J. Y. Zhang, G. Wu, W. Brandi, J. Beasley, K. Morrill, J. Ettedgui, S. Siddhartha, H. Yuan, and F. Gao, “Click Fraud Detection: Adversarial Pattern Recognition over 5 Years at Microsoft,” In Real World Data Mining Applications, Springer, pp. 181–201, 2015.
N. Sadagopan and J. Li, “Characterizing typical and atypical user sessions in clickstreams,” In Proceedings of the 17th international conference on World Wide Web, pp. 885–894, 2008.
H. Kang, K. Wang, D. Soukal, F. Behr, and Z. Zheng, “Large-scale bot detection for search engines,” In Proceedings of the 19th international conference on World wide web, pp. 501–510, 2010.
B. Kitts, J. Y. Zhang, A. Roux, and R. Mills, “Click Fraud Detection with Bot Signatures,” in Intelligence and Security Informatics (ISI), 2013 IEEE International Conference, pp. 146–150, 2013.
J. Zhang, Y. Xie, F. Yu, D. Soukal, and W. Lee, “Intention and Origination: An Inside Look at Large-Scale Bot Queries,” in NDSS, 2013.
J. P. John, F. Yu, Y. Xie, A. Krishnamurthy, and M. Abadi, “deSEO: Combating Search-Result Poisoning,” in USENIX security symposium, 2011.
S. Khattak, N. R. Ramay, K. R. Khan, A. Syed, and S. A. Khayam, “A taxonomy of botnet behavior, detection, and defense,” Commun. Surv. Tutorials, IEEE, vol. 16, no. 2, pp. 898–924, 2014.
N. Buzikashvili, “Sliding window technique for the web log analysis,” in the 16th international conference on World Wide Web, pp. 1213–1214, 2007.
Y. Zhang and A. Moffat, “Separating Human and Non-Human Web Queries,” In the Web Information Seeking and Interaction Workshop, pp. 13–16, 2007.
B. J. Jansen, A. Spink, and C. Blakely, “Defining a Session on Web Search Engines,” vol. 58, no. 1998, pp. 862–871, 2007.
N. Daswani and M. Stoppelman, “The Google click quality and security teams,” The anatomy of Clickbot. A,” In the First Workshop in Understanding Botnets, 2007.
J. W. Stokes, G. Buehrer, K. Chellapilla, and J. C. Platt, “Classification of automated search traffic,” In Weaving Services and People on the World Wide Web, Springer Berlin Heidelberg, pp. 3–26, 2009.
O. Duskin and D. G. Feitelson, “Distinguishing humans from robots in web search logs: preliminary results using query rates and intervals,” In Proceedings of the 2009 workshop on Web Search Click Data, pp. 15–19, 2009.
A. Yasmin, M. C. Weigle, and M. L. Nelson, “Access Patterns for Robots and Humans in Web Archives,” in 13th ACM/IEEE-CS joint conference on Digital libraries," ACM, 2013.
M. Srivastava, A. K. Srivastava, R. Garg, and P. K. Mishra, “Comparative Analysis of Robot Detection Techniques on Web Server Log,” Int. J. Adv. Res. Comput. Commun. Eng., vol. 4, no. 9, pp. 186–189, 2015.
W. Dong, X. Lei, Z. Hui, L. Hebing, Z. Hao, and S. Ting, “Web robot detection with semi-supervised learning method,” in 3rd International Conference on Material, Mechanical and Manufacturing Engineering (IC3ME 2015), pp. 2123–2128, 2015.
G. Buehrer, J. W. Stokes, and K. Chellapilla, “A large-scale study of automated web search traffic,” In Proceedings of the 4th international workshop on Adversarial information retrieval on the web, pp. 1–8, 2008.
“https://browscap.org/ua-lookup,” 2016. [Online].
G. Chandrashekar and F. Sahin, “A survey on feature selection methods,” Comput. Electr. Eng., vol. 40, no. 1, pp. 16–28, 2014.
M. SanieiAbade, S. Mahmoodi, and M. Taherparvar, “practical data mining,” 2nd ed. 2014. ( In Persian)
J. Han, M. Kamber, and J. Pei, “Data mining: comcepts and techniques,” 3rd ed. 2011.