Please use this identifier to cite or link to this item: http://studentrepo.iium.edu.my/handle/123456789/10766
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorTeddy Surya Gunawan, Ph.Den_US
dc.contributor.advisorFarah Diyana Abdul Rahman, Ph.Den_US
dc.contributor.authorArselan Ashrafen_US
dc.date.accessioned2022-01-04T00:53:35Z-
dc.date.available2022-01-04T00:53:35Z-
dc.date.issued2021-
dc.identifier.urihttp://studentrepo.iium.edu.my/handle/123456789/10766-
dc.description.abstractEmotion recognition utilizing pictures, videos, or speech as input is considered an intriguing issue in the research field over certain years. The introduction of deep learning procedures like the Convolutional Neural Networks (CNN) has made emotion recognition achieve promising outcomes. Since human facial appearances are considered vital in understanding one’s feelings, many research studies have been carried out in this field. However, it still lacks in developing a visual-based emotion recognition model with good accuracy and uncertainty in determining influencing features, type, the number of emotions under consideration, and algorithms. This research is carried out to develop an image and video-based emotion recognition model using CNN for automatic feature extraction and classification. The optimum CNN configuration was found to be having three convolutional layers with max-pooling attached to each layer. The third convolutional layer was followed by a batch normalization layer connected with two fully connected layers. This CNN configuration was selected because it minimized the risk of overfitting along with produced a normalized output. Five emotions are considered for recognition: angry, happy, neutral, sad, and surprised, to compare with previous algorithms. The construction of the emotion recognition model is carried out on two datasets: an image dataset, namely “Warsaw Set of Emotional Facial Expression Pictures (WSEFEP)” and a video dataset, namely “Amsterdam Dynamic Facial Expression Set – Bath Intensity Variations (ADFES-BIV).” Different pre-processing steps have been carried over data samples, followed by the popular and efficient Viola-Jones algorithm for face detection. CNN has been used for feature extraction and classification. Evaluating results using confusion matrix, accuracy, F1-score, precision, and recall shows that video-based datasets obtained more promising results than image-based datasets. The recognition accuracy, F1 score, precision, and recall for the video dataset came out to be 99.38%, 99.22%, 99.4%, 99.38, and that of the image dataset came out to be 83.33%, 79.1%, 84.46%, 80%, respectively. The proposed algorithm has been benchmarked with two other CNN-based algorithms, and the accuracy performs better around 5.33% and 3.33%, respectively, for the image dataset, while 4.38% for the video dataset. The outcome of this research provides the productivity and usability of the proposed system in visual-based emotion recognition.en_US
dc.language.isoenen_US
dc.publisherKuala Lumpur : Kulliyyah of Engineering, International Islamic University Malaysia, 2021en_US
dc.subject.lcshDeep learning (Machine learning)en_US
dc.subject.lcshEmotion recognition -- Computer simulationen_US
dc.titleImage and video based emotion recognition using deep learningen_US
dc.typeMaster Thesisen_US
dc.description.identityt11100392662ArselanAshrafen_US
dc.description.identifierThesis : Image and video based emotion recognition using deep learning /by Arselan Ashrafen_US
dc.description.kulliyahKulliyyah of Engineeringen_US
dc.description.programmeMaster of Science (Computer and Information Engineering)en_US
dc.description.abstractarabicيعتبر التعرف على المشاعر باستخدام الصور أو مقاطع الفيديو أو الكلام كمدخلات ، قضية مثيرة للاهتمام في مجال البحث على مر السنين. لقد حقق إدخال إجراءات التعلم العميق مثل الشبكات العصبية التلافيفية والتعرف على المشاعر نتائج واعدة في هذا المجال. نظرًا لأن ملامح الوجه البشرية تمثل سمات مهمة في فهم مشاعر المرء. تم إجراء العديد من الأبحاث في هذا المجال ، لكن هذه الأبحاث لا تزال تفتقر إلى تطوير نموذج مرئي للتعرف على المشاعر بدقة واعدة، بالإضافة إلى عدم اليقين في تحديد السمات المؤثرة ، ونوع وعدد المشاعر قيد الدراسة ، والخوارزميات. تم إجراء هذا البحث لتطوير نموذج يعتمد على الصورة والفيديو للتعرف على المشاعر ، وذلك باستخدام CNN لاستخراج الميزات وتصنيفها تلقائيًا. تم استنتاج أن التكوين الأمثل لـ CNN له ثلاث طبقات تلافيفية ، مع أقصى تجمع مرتبط بكل طبقة. عقبت الطبقة التلافيفية الثالثة طبقة تسوية حزمة متصلة بطبقتين متصلتين بالكامل.تم اختيار تكوين CNN هذا لأنه يقلل من مخاطر التركيب الزائد مع الناتج الطبيعي. تم أخذ خمسة مشاعر في الاعتبار للتعرف عليها: غاضب ، سعيد ، محايد ، حزين ، ومندهش، وذلك للمقارنة مع الخوارزميات السابقة. تم تنفيذ بناء نموذج التعرف على المشاعر على مجموعتي بيانات: مجموعة بيانات للصور وهي "مجموعة وارسو من صور تعبيرات الوجه العاطفية (WSEFEP)" ومجموعة بيانات فيديو تسمى "مجموعة تعبير الوجه الديناميكي بأمستردام - تنويعات كثافة الاستحمام (ADFES-BIV) ". تم تنفيذ خطوات معالجة مسبقة مختلفة على عينات البيانات متبوعة بخوارزمية فيولا جونز الشائعة والفعالة لاكتشاف الوجه. تم استخدام CNN لاستخراج الميزات والتصنيف. تظهر نتائج التقييم عند استخدام مصفوفة الارتباك ودقة التعرف ودرجة F1 والدقة والاستدعاء أن مجموعة البيانات المستندة إلى الفيديو حصلت على نتائج واعدة أكثر، مقارنة بمجموعة البيانات القائمة على الصور. بلغت دقة التعرف ودرجة F1 والدقة والاستدعاء لمجموعة بيانات الفيديو 99.38٪، 99.22٪، 99.4٪، و99،38٪، على التوالي، بينما كانت تلك الخاصة بمجموعة بيانات الصور 83.33٪، 79.1٪، 84.46٪ و 80٪، على التوالي. تم اختبار الخوارزمية المقترحة مع خوارزميتين أخريين تعتمدان على CNN ، حيث أظهرت أداءً أفضل من حيث الدقة حوالي 5.33٪ و 3.33٪ على التوالي لمجموعة بيانات الصورة ، بينما أظهرت تحسنًا بنسبة 4.38٪. لمجموعة بيانات الفيديو. توفر نتائج هذا البحث إنتاجية وإمكانية استخدام النظام المقترح في التعرف على المشاعر المرئية.en_US
dc.description.nationalityMalaysianen_US
dc.description.callnumbert Q 325.73 A781I 2021en_US
dc.description.notesThesis (MSCIE)--International Islamic University Malaysia, 2021.en_US
dc.description.physicaldescriptionxvi, 108 leaves : colour illustrations ; 30cm.en_US
item.openairetypeMaster Thesis-
item.grantfulltextopen-
item.fulltextWith Fulltext-
item.languageiso639-1en-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
item.cerifentitytypePublications-
Appears in Collections:KOE Thesis
Files in This Item:
File Description SizeFormat 
t11100392662ArselanAshraf_24.pdf24 pages file421.3 kBAdobe PDFView/Open
t11100392662ArselanAshraf_SEC.pdf
  Restricted Access
Full text secured file2.54 MBAdobe PDFView/Open    Request a copy
Show simple item record

Google ScholarTM

Check


Items in this repository are protected by copyright, with all rights reserved, unless otherwise indicated. Please give due acknowledgement and credits to the original authors and IIUM where applicable. No items shall be used for commercialization purposes except with written consent from the author.