Abstract:
Les émotions jouent un rôle crucial dans la communication et l'interaction humaines,
permettant aux individus de s'exprimer au-delà du domaine verbal. La capacité de comprendre
les émotions humaines est souhaitable pour les ordinateurs dans diverses applications. Les
récentes avancées technologiques ont permis aux utilisateurs de communiquer avec les
ordinateurs de manière auparavant inimaginable. Cette recherche présente une approche
holistique de l'analyse des sentiments et des émotions, intégrant un ensemble diversifié
d'algorithmes de machine learning et de deep learning pour analyser de manière exhaustive les
données faciales et vocales.
Les contributions de ce travail incluent l'utilisation d'une méthode de prétraitement
connue sous le nom de Multiscale Retinex (MSR) pour améliorer la qualité des images et le
contraste. De plus, des descripteurs discriminants handcrafted tels que LDP (Local Directional
Pattern), BSIF (Binarized Statistical Image Features) et LBP (Local Binary Patterns), ainsi que
des descripteurs de deep learning comme VGG19 et ResNet101, sont utilisés pour la
reconnaissance des émotions basées sur les images faciales. Pour la reconnaissance des
émotions dans la parole, nous utilisons le célèbre descripteur Handcrafted MFCC (Mel
Frequency Cepstral Coefficient) et le modèle acoustique préentraîné VGGish basé sur un CNN
(Convolutional Neural Network). De plus, la méthode EDA (Exponential Discriminant Analysis) a
été utilisée pour la séparation maximale entre les classes. En outre, une fusion au niveau des
scores utilisant la somme pondérée (Weighted Sum Fusion, WSF) est employée pour améliorer
le processus de correspondance. Des tests ont été effectués en utilisant trois base de données, où
la méthode proposée a surpassé l'état de l'art.
Emotions play a crucial role in human communication and interaction, allowing individuals
to express themselves beyond the verbal domain. The ability to understand human emotions is
desirable for computers in various applications. Recent technological advancements have
enabled users to communicate with computers in previously unimaginable ways. This research
presents a holistic approach to sentiment and emotion analysis, integrating a diverse set of
machine learning and deep learning algorithms to comprehensively analyze facial and vocal
data.
Contributions of this work include the use of a preprocessing method known as Multiscale
Retinex (MSR) to enhance image quality and contrast. Additionally, discriminative handcrafted
descriptors such as LDP (Local Discriminant Pattern), BSIF (Binarized Statistical Image
Features), and LBP (Local Binary Patterns), as well as deep learning descriptors like VGG19 and
ResNet101, are used for facial emotion recognition. For speech emotion recognition, we employ
the well-known handcrafted descriptor MFCC (Mel Frequency Cepstral Coefficient) and the
pretrained acoustical model VGGish based on a Convolutional Neural Network (CNN).
Furthermore, Exponential Discriminant Analysis (EDA) method was used for maximal class
separation. Additionally, score-level fusion using Weighted Sum Fusion (WSF) is employed to
enhance the matching process. Tests were conducted using three datasets, where the proposed
method outperformed the state-of-the-art.