تشخیص رفتارهای خشونت آمیز در دوربین‌های نظارتی به کمک شبکه‌های عصبی پیچشی و حافظه‌دار

نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه فناوری اطلاعات و ارتباطات، دانشگاه جامع علوم انتظامی امین، تهران، ایران

2 گروه مهندسی مکاترونیک، دانشکده سامانه های هوشمند، دانشکدگان علوم و فناوری‌های میان رشته‌ای،دانشگاه تهران، تهران،تهران، ایران

3 کارشناسی ارشد مهندسی کامپیوتر، دانشگاه جامع علوم انتظامی امین

چکیده

وجود امنیت در هر جامعه‌ای الزامی می‌باشد و زمینه ساز پیشرفت و توسعه هر چه راحت تر و سریع تر یک کشور است لذا تمامی کشورها سعی در برقراری امنیتی پایدار از طریق کنترل میزان خشونت و نزاع در سطح جامعه دارند. از طرفی به دلیل محدودیت نیرو انسانی نمی‌توان تمامی فرایند تامین امنیت را از طریق روش‌های سنتی و متداول گذشته انجام داد و باید در این راستا از تجهیزات و تکنولوژی های جدید و بروز دنیا استفاده کرد یکی از این فناوری که اخیرا بسیار مورد توجه جامعه بین الملل و کشورهای پیشرفته دنیا قرار گرفته است استفاده از دوربین های مدار بسته و نظارتی در اماکن عمومی می باشد در این پژوهش سیستمی خبره بر اساس دو مجموعه شبکه‌ی عصبیResNet101 و حافظه‌دارLSTM با هدف کاهش حجم محاسباتی در عین حفظ دقت مناسب، ارائه شده است که شبکه ResNet101 با مجموع 347 لایه و از طریق روش یادگیری انتقال ویژگی‌های فضا-زمانی فریم‌های متوالی ویدیو را استخراج نموده و سپس شبکه LSTM با مجموع 9 لایه، وظیفه تشخیص رفتار خشونت آمیز در ویدیو را بر عهده دارد. این دو مجموعه از نظر نوع چینش لایه، نحوه اتصال و تعداد سلول در هر لایه به‌گونه ای بهینه شده‌اند که بتوانند در تمامی شرایط ویدیویی اعم از کیفیت پایین، وجود نویز و کوتاهی ویدیو و... بهترین عملکرد را داشته باشند. در نتیجه این سامانه هوشمند می‌توانند با دقت %28/86 به صورت بلادرنگ و لحظه‌ای در تصاویر ویدیویی با کیفیت پایین 3*224*224 پیکسلی به تشخیص رفتارهای خشونت آمیز در دوربین‌های مدار بسته بپردازند و در صورت وقوع خشونت مراتب آن را به افراد ذی‌ربط اطلاع دهند. در انتها باید اشاره داشت که سیستم طراحی شده با کاهش حجم محاسباتی در کنار حفظ میزان دقت توانسته است فقط با استفاده از 22 فریم در هر 5 ثانیه از ویدیو، پایش کارا و مناسبی را به صورت برخط در دوربین‌های نظارتی با کیفیتی پایین انجام دهد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Violent behavior detection in surveillance cameras using convolutional and memory neural networks

نویسندگان [English]

  • Ahmad Dolat Khah 1
  • Milad Asadpour 2
  • Raheb Hashempour 3
  • behnam dorostkar 1
1 Department of information and communication, Amin university Tehran. Iran
2 Mechatronics Engineering, Faculty of Intelligent System, College Of Interdisciplinary Science and Technologies
3 Master of Computer Engineering, Amin university, Tehran, iran
چکیده [English]

The existence of security is mandatory in any society and it is the basis for the progress and development of a country as easily and quickly as possible, so all countries try to establish stable security by controlling the level of violence and strife in the society. On the other hand, due to the limitation of manpower, it is not possible to carry out the entire process of providing security through the traditional and common methods of the past, and in this regard, new and up-to-date equipment and technologies must be used. and advanced countries of the world, the use of closed-circuit and surveillance cameras in public places is in this research, an expert system based on two sets of neural network ResNet101 and memory LSTM with the aim of reducing the amount of computation while maintaining proper accuracy, ResNet101 network is presented With a total of 347 layers and through the transfer learning method, it extracts the spatio-temporal features of consecutive video frames, and then the LSTM network with a total of 9 layers is responsible for detecting violent behavior in the video. These two sets have been optimized in terms of the type of layer arrangement, the way of connection and the number of cells in each layer so that they can have the best performance in all video conditions, including low quality, presence of noise and short video, etc. As a result of this intelligent system, they can detect violent behavior in closed-circuit cameras with an accuracy of 86.28% in real-time and instantaneously in low-quality video images of 224x3x224 pixels, and in case of violence, report it to the relevant people. inform In the end, it should be mentioned that the designed system, by reducing the amount of computing while maintaining the accuracy, has been able to perform effective and appropriate online monitoring of low-quality surveillance cameras by using only 22 frames per 5 seconds of video.

کلیدواژه‌ها [English]

  • violence detection
  • machine vision
  • artificial neural networks
  • surveillance cameras

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 21 آبان 1403
  • تاریخ دریافت: 30 دی 1402
  • تاریخ بازنگری: 18 اسفند 1402
  • تاریخ پذیرش: 30 مهر 1403
  • تاریخ انتشار: 21 آبان 1403