شباهت معنایی جملات فارسی با استفاده از تطبیق فضای برداری و یادگیری عمیق

نوع مقاله : مقاله پژوهشی

نویسندگان

1 استادیار، دانشگاه صنعتی مالک‌اشتر، تهران، ایران

2 کارشناسی ارشد، دانشگاه صنعتی مالک‌ اشتر، تهران، ایران

چکیده

امروزه، شناسایی متون مشابه، موضوعی با کاربردهای فراوان می‌باشد که با توجه به اهمیت آن، توسط پژوهشگران زبان‌های مختلف مورد‍ تحلیل و بررسی قرار گرفته است. در گذشته اغلب برای درک جملات توسط سامانه­های رایانه‌ای، جملات به‌صورت مجموعه کلمات مورد بررسی قرار می­گرفتند. اما امروزه، با گسترش فناوری و استفاده از شبکه­های عصبی عمیق، می‌توان از خود جملات، مفهوم اصلی را استخراج نمود. بنابراین، رسیدن به مدلی که بتواند جملات را کدگذاری کرده و مفهوم اصلی جمله را با دقت هر چه بیشتر استخراج نماید، یکی از نیازهای ضروری برای این هدف به شمار می­رود. این مقاله قصد دارد تا میزان شباهت جملات را از نقطه نظر معنایی به‌دست آورد که از روش‌های یادگیری عمیق استفاده می‌کند. از آنجایی که روش‌های یادگیری عمیق نیاز به داده آموزشی زیادی دارند، این مقاله از ایده نگاشت بین زبانی بهره می‌برد. روش پیشنهادی، فضای برداری تعبیه کلمات انگلیسی را به فارسی نگاشت کرده و با کمک مدل آموزش داده شده در زبان انگلیسی، شباهت جملات فارسی به‌دست می‌آید. درنهایت، نتایج نهایی با امتیازات انسانی مورد مقایسه قرار گرفته است. نتایج حاصل از روش پیشنهادی، میزان دقت این سامانه پیشنهادی را 89 درصد ارائه می‌دهد که نسبت به سایر مدل­های یادگیری عمیق برتری دارد.

کلیدواژه‌ها


عنوان مقاله [English]

Investigation of the Semantic Similarity of Persian Sentences Using Vector Space Adaptation And Deep Learning

نویسندگان [English]

  • Saeedeh Sadat Sadidpour 1
  • Mina Hajigholamreza 2
  • Mohammad Reza Mohammadzadeh 2
  • Sayed Mohammad Reza Mohammadi 2
  • MohammadAli keyvanrad 1
1 Assistant Professor, Malik Ashtar University of Technology, Tehran, Iran
2 Master's degree, Malik Ashtar University of Technology, Tehran, Iran
چکیده [English]

Nowadays, similar texts recognition is a subject with many applications and due to its significance, has been analyzed and studied in various languages by researchers. In the past, sentences were often used as a set of words to be understood by computer systems. But today, with the spread of technology and the use of deep neural networks, the main concept of sentences can be extracted from the sentences themselves. Therefore, achieving a model that can encode sentences and extract the main concept of the sentence as accurately as possible is one of the essential needs for this purpose.
This paper intends to use deep learning methods to evaluate the degree of semantic similarity between sentences. As the deep learning methods need many data, this paper employs an inter-linguistic mapping idea. The proposed method maps an English word embedding vector space into Persian, and Persian sentence similarity is calculated by a trained model in English and finally the outcome is compared with human scores. The results of the proposed method show the accuracy of the proposed system to be 89%, which is superior to other deep learning models.

کلیدواژه‌ها [English]

  • Sentence Concept Extraction
  • Word Embedding
  • Deep Learning
  • Sentence Similarity Extraction
  • Vector Space Adaptation

Smiley face

[1]  R., Mihalcea, C. Corley, and C. Strapparava,  "Corpus-based and Knowledge-based Measures of Text Semantic Similarity," In Aaai, Vol. 6, pp.775-780, 2006. 
[2]  D. T. Tolciu, C. Sacarea, and C. Matei, "Analysis of Patterns and Similarities in Service Tickets using Natural Language Processing," Journal of Communications Software and Systems, vol. 17, no. 1, pp. 29-35, 2021.
[3]  V. Bahel and A. Thomas, "Text Similarity Analysis for Evaluation of Descriptive Answers," ArXiv Preprint ArXiv, 2105.02935, 2021.
[4]   S. Mizzaro, M. Pavan, and I. Scagnetto, "Content-based Similarity of Twitter Users," In European conference on information retrieval, Springer, 2015.
[5]   Z. Sepehrian, S. S. Sadidpour, and H. Shirazi, "An Approach Based on Semantic Similarity in Persian Query-Based Summarization," Scientific Journal of Electronic and Cyber Defense, vol. 2, no. 3, pp. 51-63, 2014 (in Persian).
[6]    Z. Wang, W. Hamza, and R. Florian, "Bilateral Multi-perspective Matching for Natural Language Sentences," ArXiv Preprint ArXiv, 1702.03814, 2017.
[7]   J. Mueller and A. Thyagarajan, "Siamese Recurrent Architectures for Learning Sentence Similarity," In Thirtieth AAAI Conference on Artificial Intelligence, 2016.
[8]  W. H. Gomaa and A. A. Fahmy, "A Survey of Text Similarity Approaches," International Journal of Computer Applications, vol. 68, no. 13, pp. 13-18, 2013.
[9]  M. Farouk, "Measuring Sentences Similarity: A Survey,"  arXiv:1910.03940v1, July 2019.
[10]   Y. Wang, X. Di, J. Li, H. Yang, and L. Bi, "Sentence Similarity Learning Method based on Attention Hybrid Model," In Journal of Physics: Conference Series, IOP Publishing, 2018.
[11]  T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient Estimation of Word Representations in Vector Space." ArXiv Preprint ArXiv, 1301.3781, 2013.
[12]  Y. Doval, J. Camacho-Collados, L. Espinosa-Anke, and S. Schockaert, "Improving Cross-lingual Word Embeddings by Meeting in the Middle," ArXiv Preprint ArXiv, 1808.08780, 2018.
[13]  A. Conneau, G. Lample, M. A. Ranzato, L. Denoyer, and H. Jégou, "Word Translation Without Parallel Data," ArXiv Preprint ArXiv, 1710.04087, 2017.
[14]  M. Artetxe, G. Labaka, and E. Agirre, "Learning Bilingual Word Embeddings with (almost) no Bilingual Data," In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2017.
[15]  J. Devlin, M. W. Chang, K. Lee, and K. Toutanova, "Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding," ArXiv Preprint ArXiv,1810.04805, 2018.
[16]   H., Huang, Y. Liang, N. Duan, M. Gong, L. Shou, D. Jiang, and M. Zhou, "Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks," ArXiv Preprint ArXiv, 1909.00964, 2019.
[17]  G. Lample and A. Conneau, "Cross-lingual Language Model Pretraining," ArXiv Preprint ArXiv, 1901.07291, 2019.
[18]  H. Gonen, S. Ravfogel, Y. Elazar, and Y. Goldberg, "It's not Greek to mBERT: Inducing Word-Level Translations from Multilingual BERT," ArXiv Preprint ArXiv, 2010.08275, 2020.
[19]    R. Samuel, G. A. Bowman, and C. Potts, "The Stanford Natural Language Inference (SNLI) Corpus, arXiv preprint arXiv:1508.05326, 2015.
دوره 10، شماره 2 - شماره پیاپی 38
شماره پیاپی 38، فصلنامه تابستان
مهر 1401
صفحه 43-56
  • تاریخ دریافت: 13 اردیبهشت 1400
  • تاریخ بازنگری: 15 آذر 1400
  • تاریخ پذیرش: 18 مرداد 1401
  • تاریخ انتشار: 01 مهر 1401