ارائه مدلی ترکیبی مبتنی بر CNN – LSTM جهت تشخیص هیجان از سیگنال گفتار

نوع مقاله : مقاله پژوهشی

نویسندگان

1 کارشناسی ارشد،دانشگاه جامع امام حسین (ع)، تهران،ایران

2 دانشجوی دکتری،دانشگاه جامع امام حسین (ع)، تهران،ایران

چکیده

داده های منتشرشده در فضای مجازی شامل متن، تصویر، ویدئو و صوت به منبعی معتبر برای سنجش افکار، عقاید و هیجانات مخاطب نسبت به اشیا مختلف مانند دولتها، سیاستها، شخصیتها، محصولات و غیره تبدیلشدهاند، ب همنظور مقابله با تهدیدات شناختی فضای سایبری، تشخیص شاکله شناختی مخاطبان خودی و غیرخودی بسیار حائز اهمیت است. پژوهش حاضر به‌منظور ارائه‌ی مدلی محاسباتی برای تشخیص هیجان گفتار مخاطب مبتنی بر ترکیب دوطبقه بند CNN – LSTM صورت گرفته است. در این مقاله در ابتدا مقدمهای در مورد تشخیص هیجان گفتار و کاربردهای آن گفتهشده، سپس طرحهای ارائهشده در مجلات معتبر مرور و دقت آن‌ها ارزیابی‌شده است، در ادامه روشی کاربردی جهت تشخیص هشت هیجان پایه مخاطب شامل شادی، غم، ترس، آرام، خشم، نفرت، شگفت‌زده و خنثی ارائه‌شده است. در این پژوهش بهمنظور داشتن تعداد داده بالا، با ترکیب دو مجموعه داده RAVDESS و TESS یک مجموعه داده کلی جمع‌آوریشده، در مرحله استخراج ویژگی سه ویژگی MFCC، MEL و ZCR استخراج و ترکیب‌شده و سپس در مدل طراحی‌شده از ترکیب طبقه‌بندی کننده‌های CNN و LSTM جهت آموزش و تست استفاده‌شده است. با ارزیابیهای انجامشده، دقت مدل بر روی‌داده‌های تست، 92.57 درصد است، که نسبت به مدل های موجود دارای دقت بالاتری می باشد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

A hybrid model based on CNN-LSTM for speech emotion reognition

نویسندگان [English]

  • reza ahmadian 1
  • Hossein Rayat Parvar 1
  • abolfazl sarkardehee 2
1 Master's degree, Imam Hussein (AS) University, Tehran, Iran
2 PhD Student, Imam Hussein (AS) University, Tehran, Iran
چکیده [English]

The data published in the virtual space, including text, image, video and speech, have become a reliable source for measuring the thoughts, opinions and emotions of the audience towards various objects such as governments, policies, personalities, products, etc. In order to conflict with the cognitive threats of the cyberspace, it is very important to recognition the cognitive structure of insider and enemy audiences. The current research was conducted in order to present a computational model for speech emotion recognition based on the combination of two Classifier of CNN-LSTM. In this article, at the beginning, the introductions about speech emotion recognition and its applications are mentioned, then the papers presented in the authoritative journals are reviewed and their accuracy is evaluated, in the following, a practical method for recognition the eight basic emotions of the audience including happiness, sadness, fear, calm, anger, Disgust, surprise, and neutral are presented. In this research, in order to have a high number of data, by combining the two data sets RAVDESS and TESS, a general data set was collected, in the feature extraction phase, three features MFCC, MEL and ZCR were extracted and combined, and then in the model designed by the combination of CNN and LSTM classifiers for Training and testing have been used. With the evaluations, the accuracy of the model on the test data is 92.57%, which is more accurate than the existing models.

کلیدواژه‌ها [English]

  • speech emotion recognition
  • audience evaluation
  • convolutional neural network
  • recurrent neural network
  • mel frequency capstral coefficients

Smiley face