Abstract:
La reconnaissance d'activités humaines (HAR) est un domaine de recherche crucial avec
des applications dans la surveillance, les soins de santé, le sport et l'interaction homme machine. Ce mémoire explore l'intégration de différentes techniques de vision par
ordinateur et d'apprentissage profond, notamment les réseaux convolutifs (CNN), les
réseaux récurrents (RNN), les architectures LSTM et les Transformers, dans le but de mieux
comprendre et classifier les activités humaines à partir de séquences vidéo. Une étude
comparative est menée entre plusieurs architectures modernes telles que LRCN, ConvLSTM
et Vision Transformers sur des bases de données standardisées comme UCF50 et PAMAP2.
L'objectif est de proposer un cadre performant combinant vision spatiale et dynamique
temporelle pour améliorer la précision de la classification. Les résultats montrent que les modèles hybrides qui exploitent à la fois les caractéristiques spatiales et temporelles offrent une meilleure reconnaissance d'activité.