Descripteurs Audio-Visuels Pour La Reconnaissance Des Emotions

Fourar, Ryma; Tounsi, Mohamed ; promoteur; Ouari, Samia; Belabbaci, El Ouanas ; co-promoteur

Descripteurs Audio-Visuels Pour La Reconnaissance Des Emotions

Fourar, Ryma; Ouari, Samia; Tounsi, Mohamed ; promoteur; Belabbaci, El Ouanas ; co-promoteur

URI: http://univ-bejaia.dz/dspace/123456789/24968

Date: 2024

Abstract:

Les émotions jouent un rôle crucial dans la communication et l'interaction humaines, permettant aux individus de s'exprimer au-delà du domaine verbal. La capacité de comprendre les émotions humaines est souhaitable pour les ordinateurs dans diverses applications. Les récentes avancées technologiques ont permis aux utilisateurs de communiquer avec les ordinateurs de manière auparavant inimaginable. Cette recherche présente une approche holistique de l'analyse des sentiments et des émotions, intégrant un ensemble diversifié d'algorithmes de machine learning et de deep learning pour analyser de manière exhaustive les données faciales et vocales. Les contributions de ce travail incluent l'utilisation d'une méthode de prétraitement connue sous le nom de Multiscale Retinex (MSR) pour améliorer la qualité des images et le contraste. De plus, des descripteurs discriminants handcrafted tels que LDP (Local Directional Pattern), BSIF (Binarized Statistical Image Features) et LBP (Local Binary Patterns), ainsi que des descripteurs de deep learning comme VGG19 et ResNet101, sont utilisés pour la reconnaissance des émotions basées sur les images faciales. Pour la reconnaissance des émotions dans la parole, nous utilisons le célèbre descripteur Handcrafted MFCC (Mel Frequency Cepstral Coefficient) et le modèle acoustique préentraîné VGGish basé sur un CNN (Convolutional Neural Network). De plus, la méthode EDA (Exponential Discriminant Analysis) a été utilisée pour la séparation maximale entre les classes. En outre, une fusion au niveau des scores utilisant la somme pondérée (Weighted Sum Fusion, WSF) est employée pour améliorer le processus de correspondance. Des tests ont été effectués en utilisant trois base de données, où la méthode proposée a surpassé l'état de l'art. Emotions play a crucial role in human communication and interaction, allowing individuals to express themselves beyond the verbal domain. The ability to understand human emotions is desirable for computers in various applications. Recent technological advancements have enabled users to communicate with computers in previously unimaginable ways. This research presents a holistic approach to sentiment and emotion analysis, integrating a diverse set of machine learning and deep learning algorithms to comprehensively analyze facial and vocal data. Contributions of this work include the use of a preprocessing method known as Multiscale Retinex (MSR) to enhance image quality and contrast. Additionally, discriminative handcrafted descriptors such as LDP (Local Discriminant Pattern), BSIF (Binarized Statistical Image Features), and LBP (Local Binary Patterns), as well as deep learning descriptors like VGG19 and ResNet101, are used for facial emotion recognition. For speech emotion recognition, we employ the well-known handcrafted descriptor MFCC (Mel Frequency Cepstral Coefficient) and the pretrained acoustical model VGGish based on a Convolutional Neural Network (CNN). Furthermore, Exponential Discriminant Analysis (EDA) method was used for maximal class separation. Additionally, score-level fusion using Weighted Sum Fusion (WSF) is employed to enhance the matching process. Tests were conducted using three datasets, where the proposed method outperformed the state-of-the-art.