dc.description.abstract |
The field of bioinformatics opens up great opportunities to understand biological phenomena, which has attracted
great interest from the scientific community in recent years. Consequently, there are many problems of
bioinformatics, including multiple sequence alignment, protein structure prediction, construction of the
phylogenetic tree and molecular docking, etc., which need the cooperation between biologists and computer
scientists to be solved. This work addresses two problems: multiple sequence alignment and gene selection using
bio-inspired algorithms. Firstly, we developed a method to solve the multiple sequence alignment problem, called
a multi-objective artificial fish swarm algorithm (MOAFS), using the behaviors of artificial fish swarm algorithms,
Pareto optimal set, and genetic operations. Secondly, we proposed an algorithm to solve the gene selection problem
by using mutual information, moth flame optimization algorithm, and support vector machine with leave one out
cross-validation (SVMLOOCV). It called the Mutual Information Maximization-modified Moth Flame Algorithm
(MIM-mMFA) that consists of two simple phases. The thesis has processed a full test of the MOAFS on the
BaliBASE 2.0 and BaliBASE 3.0 alignment benchmark datasets as well as the MIM-mMFA test on sixteen binary
and multi-classes cancer gene expression datasets. Finally, we have given a deep insight into the performance of
each algorithm. In addition, our proposed algorithms achieved competitive or better results than the wellestablished
algorithms in the literature.
Keywords: Bio-informatics; Bio-inspired Algorithms ; Multiple Sequence Alignment ; Artificial Fish Swarm
Algorithm ; Gene Selection Genes Expression ; Microarray ; Cancer Classification ; Moth Flame Optimization
Algorithm.
Résume
Le domaine de la bio-informatique offre de grandes possibilités de comprendre les phénomènes biologiques, ce
qui a suscité un grand intérêt de la part de la communauté scientifique ces dernières années. Par conséquent, il
existe de nombreux problèmes de bio-informatique, y compris l’alignement de séquences multiples, la prédiction
de la structure des protéines, la construction de l’arbre phylogénétique et l’amarrage moléculaire, etc. qui
nécessitent la coopération entre biologistes et informaticiens pour être résolus. Ce travail aborde deux problèmes:
l’alignement de séquences multiples et la sélection de gènes à l’aide d’algorithmes bio-inspirés. Premièrement,
nous avons développé une méthode pour résoudre le problème de l’alignement des séquences multiples, appelée
algorithme d’essaim de poissons artificiels multi-objectifs (MOAFS), en utilisant les comportements des
algorithmes d’essaim de poissons artificiels, l’ensemble Pareto-optimal, et les opérations génétiques.
Deuxièmement, nous avons proposé un algorithme pour résoudre le problème de sélection de gènes en utilisant
l’information mutuelle, l’algorithme d’optimisation de flamme de papillon de nuit, et le Machine à vecteurs de
support avec leave-one-out cross-validation (SVM-LOOCV). Il a appelé Mutual Information Maximizationmodified
Moth Flame Algorithm (MIM-mMFA) qui se compose en deux phases simples. La thèse a traité un test
complet du MOAFS sur les ensembles de données de référence d’alignement BaliBASE 2.0 et BaliBASE 3.0 ainsi
que le test MIM-mMFA sur seize ensembles de données du cancer binaires et multi-classes. Enfin, nous avons
donné un aperçu approfondi des performances de chaque algorithme. De plus, nos algorithmes proposés ont obtenu
des résultats compétitifs ou meilleurs que les algorithmes bien établis dans la littérature.
Mots-clés: Bioinformatique ; Algorithmes bio-inspirés ; Alignement de séquences multiples ; Algorithme
d’essaim de poissons artificiels ; Sélection des gènes ; Expression des gènes ; Puces à ADN ; Classification du
cancer; Algorithme d’optimisation de la flamme papillon. |
en_US |