Previous

Synthetic view for previous internships offered by IBC

Omics

Structural and functional annotation of proteomes

March - August 2016

Niv. : M2 ou Ecole d'ingénieur
Stagiaire : Anas Alaoui M'Darhri
Encadrants :
Sujet : The project dealt with the migration of the in-house software and databases for structural and functional annotation of proteomes from a 32-bit web-server to a new 64-bit server. The project also consisted of the construction of our web-site by integration of new computer tools such as NG-Prot database to make them available for the scientific community.
The internships was linked to the AXE3 of the Institute of Computational Biology (Institut de Biologie Computationnelle).

Complexité et Approximation autour de l’échafaudage de génome

Février - Juin 2015

Niv. : M2 informatique
Stagiaire : Najemeeddine Rida Hamdouche
Encadrants : Annie Chateau et Rodolphe Giroudeau
Sujet : En bioinformatique, le problème de l'échafaudage de génomes (ou scaffolding) consiste à déterminer, étant donné un ensemble de séquences d'ADN orientées appelées contigs, et un ensemble de relations valuées entre ces contigs, un ordre et une orientation des contigs qui maximise le poids total des relations entre ces contigs. On peut modéliser ce problème sous forme d'un problème d'optimisation dans un graphe particulier, muni d'un couplage parfait initial, appelé graphe d'échafaudage. Le problème consiste alors à trouver un ensemble de cycles et chemins de poids maximum dans ce graphe.


Alignement de génomes de bactériophages

Juin - Juillet 2015

Niv. : L2 informatique
Stagiaire : Nicolas Pompidor
Encadrants : Sèverine Bérard, Annie Chateau et Krister M. Swenson
Sujet : Le stage consistait à étudier la possibilité d'aligner des génomes de bactériophages en utilisant des ancres exactes et une structure d'ordre partiel, pour rendre compte de la mosaïcité de ces génomes.


Études, mise en place et comparaisons de méthodes de placement phylogénétiques en métagénomique

Mai - Juillet 2015

Niv. : M1 Bioinformatique
Stagiaire : Anaïs Barray
Encadrants : Anne-Muriel Chifolleau, Vincent Lefort et Fabio Pardi
Sujet : étude de méthodes de placements phylogénétique dans un arbre de référence (e.g. pplacer, EPA), mise en place de ces méthodes sous galaxy, et test / comparaison de ces méthodes.

> Télécharger le rapport

Modélisation

Développement d'une méthode statistique d'estimation de paramètres pour les modélisations donnant lieu à un calcul de vraisemblance impossible

Mars - Juin 2016

Niv. : M2
Stagiaire : Louis Raynal
Encadrants : Jean-Michel Marin
Sujet : la réoptimisation de superchaîne décrit au problème suivant : si on nous donne un ensemble d'un problème d'optimisation avec une solution optimale de  celui-ci,  nous  voulons  trouver  une  solution  correcte  pour  un  ensemble légèrement modifié.

Réoptimisation de superchaîne

Avril - Aout 2015

Niv. : M2 ou Ecole d'ingénieur
Stagiaire : Quentin Desmesttre
Encadrants : Bastien Cazaux et Eric Rivals
Sujet : la réoptimisation de superchaîne décrit au problème suivant : si on nous donne un ensemble d'un problème d'optimisation avec une solution optimale de  celui-ci,  nous  voulons  trouver  une  solution  correcte  pour  un  ensemble légèrement modifié.

> Télécharger le rapport


 Using Rad-seq data for the estimation of dispersal parameters

Février - Juin 2015

Niv. : M2 Modélisation en écologie
Stagiaire : Valentin Hivert
Encadrants : Eric Petit, Mathieu Gautier et Raphaël Leblois
Sujet : Nous avons comparé les capacités d’inférence de la dispersion des données issues de Rad-seq individuel ou poolé par rapport au marqueurs microsatellite dans deux modèles classique de dispersion, le modèle en îles (ou on estime le nombre de migrant N m) et le modèle d’isolation par la distance (IBD, où l’on estime le paramètre Dσ2 au travers d’une pente de régression) . Les résultats montrent que les marqueurs Rad-seq issus de séquençage individuel donnent des résultats plus précis que les marqueurs classiques mais que les marqueurs poolés donnent parfois des résultats fortement biaisés. Il conviendrait donc de mettre au point un estimateur non biaisé de fréquence allélique pour les données en pools afin d’améliorer l’estimation.


Impact des traitements insecticides sur la diversité génétique du moustique

Février - Juin 2015

Niv. : M2 Ecologie et Evolution
Stagiaire : Alexandre Gouy
Encadrants : François Rousset et Pierrick Labbé
Sujet : Mise en pratique et test d'une nouvelle méthode d'inférence de paramètres, fondée sur l'inférence d'une surface de vraisemblance à partir de simulations du processus biologique étudié.


Inférence de réseaux de régulation des gènes : Apprentissage avec des données génomiques

Mars - Aout 2015

Niv : M2 ou Ecole d'ingénieur
Stagiaire : May Taha
Encadrants : Charles Lecellier, Sophie Lèbre et Laurent Bréhélin
Sujet : l’étude de la régulation des gènes dans la médecine et plus précisément dans le cancer leucémie myéloïde aiguë (AML). L'objectif est de trouver les motifs et les di-nucléotides nécessaire pour la construction des réseaux de régulations de ces gènes.

> Télécharger le rapport

Données

Indexation de données issues du web sémantique dans le domaine agronomique

Février - Aout 2016

Niv. : M1
Stagiaire : Stella Zevio
Encadrants : Pierre Larmande et Nordine El Hassouni
Sujet : Le stage s’effectue dans le cadre du développement d’une base de connaissances RDF (Agronomic Linked Data ou AgroLD www.agrold.org) rassemblant pour les plantes cultivées une grande partie des ressources publiques disponibles en génomique végétales dont parmi elles  Gramene, Oryzabase, TAIR et les ressources de la plateforme SouthGreen. L’objectif d’AgroLD est de fournir un portail homogène de données intégrées et interconnectées aux experts biologistes afin qu’ils puissent répondre à des questions biologiques complexes. L’objectif du  stage sera de réaliser un workflow d’indexation permettant d’intégrer via différentes ressources (Sparql end points, articles scientifiques, bases de données, statistiques, etc.), des informations relatives aux entités biologiques présentes dans la ressource AgroLD afin de les rendre  accessibles via des interfaces de recherche à facettes. Au cours de cette période le stagiaire évaluera des solutions existantes telles que le framework Elasticsearch ou apache Solr couplées à des algorithmes d’extractions d’index. Enfin, un travail sur la visualisation et la recherche à  facette sera abordé.


Acquisition automatique de connaissances à partir de texte scientifiques

Février - Aout 2016

Niv. : M2 ou Ecole d'ingénieur
Stagiaire : Remini Sara
Encadrants : Pierre Larmande et Konstantin Todorov
Sujet : Un des enjeu du stage est d'enrichir les données liées à partir des données non-structurées qui sont contenues dans les graphes RDF du projet AgroLD (par exemple les champs « commentaires »). Par exemple, les mécanismes moléculaires et génétiques d’intérêts sont souvent décrits par des expressions complexes associant des entités biologiques reliées par des relations sémantiques spécialisées.


Facilitation de l'accès aux données biologiques sémantiquement strucuturées

Février - Aout 2015

Niv : M2 ou Ecole d'ingénieur
Stagiaire: Imene Chentli
Encadrants: Konstantin Todorov et Pierre Larmande
Le stage de master s'inscrit dans le cadre du projet IBC et particulièrement dans l'axe d'intégration de données via la construction d'une base de connaissances RDF et son utilisation par les experts biologistes. La recherche d'information et la récupération de données à partir d'une base de connaissances requiert la maitrise du langage de requête SPARQL, propre aux technologies du web sémantique sous-jacentes. Le but de ce stage est de proposer une module de « traduction » des divers besoins d'information et de données que les experts puissent avoir en langage SPARQL pour faciliter l'interaction de ces-derniers avec la base de connaissances.


The Agronomic Linked Data (AgroLD) project

Avril-Sept 2015

Niv : M2 ou Ecole d'ingénieur
Stagiaire: Gildas Tagny
Encadrants: Pierre Larmande et Aravind Venkatesan
Sujet : At IBC we are building the Agronomic Linked Data (www.agrold.org) knowledge base which is designed to integrate data from various publically available plant centric data sources such as Gramene, Oryzabase, TAIR and resources from the SouthGreen platform, to name a few. The aim of AgroLD project is to provide a portal for bioinformatics and domain experts to exploit the homogenized data model towards filling the knowledge gaps. To this end, we plan to engage with stakeholders in demonstrating the advantages of SW in answering complex domain relevant questions that were unapproachable using traditional methods, strategically filling knowledge gaps.


Développement d’un système connaissances pour BIG DATA application aux données de phénotypage chez le riz (O. sativa)

Avril-Sept 2015

Niv. : M2 ou Ecole d'ingénieur
Stagiaire: Luyen LE Ngoc
Encadrants: Pierre Larmande et Anne Tireau
Sujet : l’objectif du stage proposé sera d’évaluer la faisabilité de gestion des BIG DATA couplé au technologies du Web Sémantique en s’appuyant sur les articles de synthèse du domaine. Par ailleurs, un état de l’art de solutions existante telles que les technologies proposées par le W3C sera envisage. Le sujet s’inspirera également de solutions développées dans le domaine biologique.

Domaines Protéiques

Intégration d'informations de co-occurrence pour la recherche d'homologies locales

Mars - Aout 2015

Niv. : M2 ou Ecole d'ingénieur
Stagiaire : Christophe Menichelli
Encadrant : Laurent Bréhélin
Sujet : étudier une nouvelle procédure automatique permettant de découvrir de nouveaux domaines protéiques dans le génome d'un pathogène cible. Pour nos recherches, nous nous intéresserons essentiellement à Plasmodium falciparum, principal agent létal du paludisme chez l'homme.

> Télécharger le rapport


 Études des propriétés amyloïdogéniques d’un ensemble de 92 protéomes représentatif du vivant.

Mars - Aout 2015

Niv. : M2 ou Ecole d'ingénieur
Stagiaire : Etienne Villain
Encadrant : Andrey Kajava
Sujet : en analysant un ensemble de protéomes représentatifs du vivant on souhaite faire apparaitre la répartition de ces propriétées à l’échelle du vivant. Ensuite, produire une base de données de l’amylone prédit.

> Télécharger le rapport

Expression des gènes

Régulations transcriptionnelles et post-transcriptionnelles de l’expression des gènes

Mars - Aout 2015

Niv. : M2 ou Ecole d'ingénieur
Stagiaire Chloé Bessière
Encadrants : Charles Lecellier, Laurent Bréhélin et Sophie Lèbre
Sujet : évaluer l’action des protéines régulatrices dans l’expression des gènes en prenant comme variables leurs scores d’appariement aux différentes régions régulatrices de l’ADN et ARN

> Télécharger le rapport

Imagerie

Création de gold-standard en segmentation d’images : extension logicielle Pythor

Mars - Aout 2015

Niv. : M2 informatique
Stagiaire : Alizon Konig
Encadrant : S. Ribes
Sujet : Le processus de quantification des performances des algorithmes de segmentation d’images 3D souffre aujourd’hui d’un manque de disponibilité des expertises manuelles. En effet, la tâche d’expertise humaine est fastidieuse et parfois impossible à mener au regard de la quantité de données, et nous proposons donc d’améliorer cet aspect. Pour ce faire, nous proposons la réalisation d’une plateforme d’évaluation intégrant des approches algorithmiques de segmentation automatique, permettant ainsi d’alléger l’expertise en la réduisant à une correction des résultats algorithmiques via une interface utilisateur et un module de visualisation. Cette approche permet d’une part d’atteindre la quantification des performances et la validation des algorithmes mais ouvre également la voie à des réflexions concernant l’amélioration des approches via la prise en compte de la perception humaine ou encore à des réflexions concernant l’auto-validation via des stratégies d’apprentissage et de prédiction.

Epigenetic

Epigenetic Data Integration and Analysis

Mars - Aout 2015

Niv. : M2 informatique
Stagiaire : Dagmara Robakowska Hyzorek
Encadrant : Marie Mirouze, Pierre Larmande
Sujet :The present project aims at studying existing approaches that overcome the challenges of epigenetic data analysis. Integration of heterogeneous measurements of epigenetics variation is non-trivial due to the diversity and variety of output data formats. To address these  issues, we aim creating tools to collect epigenetic datasets generated in different laboratories as well as from different databases and translate them to a standard format to be integrated, analysed and finally visualized. Objectives will be the development of an online epigenome and mobilome database for the rice data and will highlight tools used for linear and circular visualization of the data (Bules et al., 2016; Krzywinski et al.,2009).

> Download the poster exposed at JOBIM

Evolution

Effects of sampling schemes and genetic drift on the admixture proportions calculated by the software STRUCTURE

Mars - Aout 2016

Niv. : M2 informatique
Stagiaire : Ken Sebastian Toyama
Encadrant : Raphaël Leblois, Pierre-André Crochet
Sujet : Assessment of levels of hybridization and introgression with genetic markers has proven crucial to describe processes of reproductive isolation and speciation in nature. Correct estimation of admixture proportions and of the genetic structure of admixed populations is instrumental for these approaches. To accomplish these goals, specialized software have been developed, STRUCTURE being probably the most commonly utilized for population structure determination, as well as hybrid identification, hybrid zone detection, and estimation of admixture proportions. However, previous theoretical studies reported that STRUCTURE sometimes deliver unreliable results, questioning the results of some empirical studies based on STRUCTURE outputs. In this study, we evaluated how admixture proportions estimated by STRUCTURE are affected by sampling scheme, drift and number of genetic markers. We simulated data under a model where an admixed population is created from the equal contribution of two pure populations. Unequal sample sizes of the pure populations had the most important effect, as the results lacked accuracy and the admixed proportions tended to be biased towards the less sampled pure populations in cases of unbalanced sampling. On the other hand, the accuracy of the results was good when pure populations presented equal sample sizes. In cases of unbalanced sampling the accuracy of the results was reduced by reducing the relative size of the admixed population sample, but precision was also reduced in the process. As expected, shorter times of divergence between pure populations and longer drift periods for the admixed population further decreased the precision and the accuracy of the results.

There are no articles in this category. If subcategories display on this page, they may contain articles.