| dc.description.abstract |
Les expressions faciales sont un canal non verbal clé pour transmettre des états internes et
jouent un rôle vital dans les interactions sociales. Au-delà des émotions de base, elles fournissent également des aperçu sur des états psychologiques dissimulés, ce qui les rend cruciales pour détecter la tromperie, un comportement complexe et socialement significatif.
Cependant, la détection de tromperie reste un défi pour les humains, avec une précision
avoisinant le niveau aléatoire. Les facteurs contributifs incluent la surcharge cognitive, les
contraintes sociales et le risque de mal interpréter de réelles émotions, connu sous le nom
d'erreur Othello. Les systèmes automatisés sont donc essentiels, particulièrement dans des domaines à haut risque tel la justice et la santé.
Malgré les progrès avec des modèles d'apprentissage profond comme les CNN, RNN et Vision Transformers, les systèmes existants présentent des limites, incluant des biais lié au dataset, une sensibilité aux changement d'environnement et l'ambiguïté des indices faciaux. Beaucoup reposent uniquement sur des caractéristiques superficielles ou profondes, chacune avec des limites en interprétabilité, sensibilité ou généralisation.
Cette thèse propose un système de détection de tromperie basé sur la fusion des indices faciaux qui intègre des caractéristiques superficielles et profondes. Les vidéos d'entrée sont traitées pour extraire les visages, puis analysées avec ResNet-50 pour les caractéristiques profondes et OpenFace pour les caractéristiques superficielles basées sur les Unités d'Action. Une réduction de caractéristiques est effectuée via des autoencodeurs, suivie d'une fusion basée sur l'attention et enfin une classification finale via un réseau neuronal dense.
Les résultats sont basées sur le Real-life Trial Dataset et utilisant à la fois une division
train/val/test et une validation croisée démontrent la robustesse et la généralisabilité du modèleproposé. |
en_US |