Internships / Stages

Find propositions of internships in IBC for M1/M2 students.
Voici les oppotunités de stages offertes par les équipes de l'IBC pour les étudiants de M1/M2.

  • Previous

    Synthetic view for previous internships offered by IBC

    Omics

    Structural and functional annotation of proteomes

    March - August 2016

    Niv. : M2 ou Ecole d'ingénieur
    Stagiaire : Anas Alaoui M'Darhri
    Encadrants :
    Sujet : The project dealt with the migration of the in-house software and databases for structural and functional annotation of proteomes from a 32-bit web-server to a new 64-bit server. The project also consisted of the construction of our web-site by integration of new computer tools such as NG-Prot database to make them available for the scientific community.
    The internships was linked to the AXE3 of the Institute of Computational Biology (Institut de Biologie Computationnelle).

    Complexité et Approximation autour de l’échafaudage de génome

    Février - Juin 2015

    Niv. : M2 informatique
    Stagiaire : Najemeeddine Rida Hamdouche
    Encadrants : Annie Chateau et Rodolphe Giroudeau
    Sujet : En bioinformatique, le problème de l'échafaudage de génomes (ou scaffolding) consiste à déterminer, étant donné un ensemble de séquences d'ADN orientées appelées contigs, et un ensemble de relations valuées entre ces contigs, un ordre et une orientation des contigs qui maximise le poids total des relations entre ces contigs. On peut modéliser ce problème sous forme d'un problème d'optimisation dans un graphe particulier, muni d'un couplage parfait initial, appelé graphe d'échafaudage. Le problème consiste alors à trouver un ensemble de cycles et chemins de poids maximum dans ce graphe.


    Alignement de génomes de bactériophages

    Juin - Juillet 2015

    Niv. : L2 informatique
    Stagiaire : Nicolas Pompidor
    Encadrants : Sèverine Bérard, Annie Chateau et Krister M. Swenson
    Sujet : Le stage consistait à étudier la possibilité d'aligner des génomes de bactériophages en utilisant des ancres exactes et une structure d'ordre partiel, pour rendre compte de la mosaïcité de ces génomes.


    Études, mise en place et comparaisons de méthodes de placement phylogénétiques en métagénomique

    Mai - Juillet 2015

    Niv. : M1 Bioinformatique
    Stagiaire : Anaïs Barray
    Encadrants : Anne-Muriel Chifolleau, Vincent Lefort et Fabio Pardi
    Sujet : étude de méthodes de placements phylogénétique dans un arbre de référence (e.g. pplacer, EPA), mise en place de ces méthodes sous galaxy, et test / comparaison de ces méthodes.

    > Télécharger le rapport

    Modélisation

    Développement d'une méthode statistique d'estimation de paramètres pour les modélisations donnant lieu à un calcul de vraisemblance impossible

    Mars - Juin 2016

    Niv. : M2
    Stagiaire : Louis Raynal
    Encadrants : Jean-Michel Marin
    Sujet : la réoptimisation de superchaîne décrit au problème suivant : si on nous donne un ensemble d'un problème d'optimisation avec une solution optimale de  celui-ci,  nous  voulons  trouver  une  solution  correcte  pour  un  ensemble légèrement modifié.

    Réoptimisation de superchaîne

    Avril - Aout 2015

    Niv. : M2 ou Ecole d'ingénieur
    Stagiaire : Quentin Desmesttre
    Encadrants : Bastien Cazaux et Eric Rivals
    Sujet : la réoptimisation de superchaîne décrit au problème suivant : si on nous donne un ensemble d'un problème d'optimisation avec une solution optimale de  celui-ci,  nous  voulons  trouver  une  solution  correcte  pour  un  ensemble légèrement modifié.

    > Télécharger le rapport


     Using Rad-seq data for the estimation of dispersal parameters

    Février - Juin 2015

    Niv. : M2 Modélisation en écologie
    Stagiaire : Valentin Hivert
    Encadrants : Eric Petit, Mathieu Gautier et Raphaël Leblois
    Sujet : Nous avons comparé les capacités d’inférence de la dispersion des données issues de Rad-seq individuel ou poolé par rapport au marqueurs microsatellite dans deux modèles classique de dispersion, le modèle en îles (ou on estime le nombre de migrant N m) et le modèle d’isolation par la distance (IBD, où l’on estime le paramètre Dσ2 au travers d’une pente de régression) . Les résultats montrent que les marqueurs Rad-seq issus de séquençage individuel donnent des résultats plus précis que les marqueurs classiques mais que les marqueurs poolés donnent parfois des résultats fortement biaisés. Il conviendrait donc de mettre au point un estimateur non biaisé de fréquence allélique pour les données en pools afin d’améliorer l’estimation.


    Impact des traitements insecticides sur la diversité génétique du moustique

    Février - Juin 2015

    Niv. : M2 Ecologie et Evolution
    Stagiaire : Alexandre Gouy
    Encadrants : François Rousset et Pierrick Labbé
    Sujet : Mise en pratique et test d'une nouvelle méthode d'inférence de paramètres, fondée sur l'inférence d'une surface de vraisemblance à partir de simulations du processus biologique étudié.


    Inférence de réseaux de régulation des gènes : Apprentissage avec des données génomiques

    Mars - Aout 2015

    Niv : M2 ou Ecole d'ingénieur
    Stagiaire : May Taha
    Encadrants : Charles Lecellier, Sophie Lèbre et Laurent Bréhélin
    Sujet : l’étude de la régulation des gènes dans la médecine et plus précisément dans le cancer leucémie myéloïde aiguë (AML). L'objectif est de trouver les motifs et les di-nucléotides nécessaire pour la construction des réseaux de régulations de ces gènes.

    > Télécharger le rapport

    Données

    Indexation de données issues du web sémantique dans le domaine agronomique

    Février - Aout 2016

    Niv. : M1
    Stagiaire : Stella Zevio
    Encadrants : Pierre Larmande et Nordine El Hassouni
    Sujet : Le stage s’effectue dans le cadre du développement d’une base de connaissances RDF (Agronomic Linked Data ou AgroLD www.agrold.org) rassemblant pour les plantes cultivées une grande partie des ressources publiques disponibles en génomique végétales dont parmi elles  Gramene, Oryzabase, TAIR et les ressources de la plateforme SouthGreen. L’objectif d’AgroLD est de fournir un portail homogène de données intégrées et interconnectées aux experts biologistes afin qu’ils puissent répondre à des questions biologiques complexes. L’objectif du  stage sera de réaliser un workflow d’indexation permettant d’intégrer via différentes ressources (Sparql end points, articles scientifiques, bases de données, statistiques, etc.), des informations relatives aux entités biologiques présentes dans la ressource AgroLD afin de les rendre  accessibles via des interfaces de recherche à facettes. Au cours de cette période le stagiaire évaluera des solutions existantes telles que le framework Elasticsearch ou apache Solr couplées à des algorithmes d’extractions d’index. Enfin, un travail sur la visualisation et la recherche à  facette sera abordé.


    Acquisition automatique de connaissances à partir de texte scientifiques

    Février - Aout 2016

    Niv. : M2 ou Ecole d'ingénieur
    Stagiaire : Remini Sara
    Encadrants : Pierre Larmande et Konstantin Todorov
    Sujet : Un des enjeu du stage est d'enrichir les données liées à partir des données non-structurées qui sont contenues dans les graphes RDF du projet AgroLD (par exemple les champs « commentaires »). Par exemple, les mécanismes moléculaires et génétiques d’intérêts sont souvent décrits par des expressions complexes associant des entités biologiques reliées par des relations sémantiques spécialisées.


    Facilitation de l'accès aux données biologiques sémantiquement strucuturées

    Février - Aout 2015

    Niv : M2 ou Ecole d'ingénieur
    Stagiaire: Imene Chentli
    Encadrants: Konstantin Todorov et Pierre Larmande
    Le stage de master s'inscrit dans le cadre du projet IBC et particulièrement dans l'axe d'intégration de données via la construction d'une base de connaissances RDF et son utilisation par les experts biologistes. La recherche d'information et la récupération de données à partir d'une base de connaissances requiert la maitrise du langage de requête SPARQL, propre aux technologies du web sémantique sous-jacentes. Le but de ce stage est de proposer une module de « traduction » des divers besoins d'information et de données que les experts puissent avoir en langage SPARQL pour faciliter l'interaction de ces-derniers avec la base de connaissances.


    The Agronomic Linked Data (AgroLD) project

    Avril-Sept 2015

    Niv : M2 ou Ecole d'ingénieur
    Stagiaire: Gildas Tagny
    Encadrants: Pierre Larmande et Aravind Venkatesan
    Sujet : At IBC we are building the Agronomic Linked Data (www.agrold.org) knowledge base which is designed to integrate data from various publically available plant centric data sources such as Gramene, Oryzabase, TAIR and resources from the SouthGreen platform, to name a few. The aim of AgroLD project is to provide a portal for bioinformatics and domain experts to exploit the homogenized data model towards filling the knowledge gaps. To this end, we plan to engage with stakeholders in demonstrating the advantages of SW in answering complex domain relevant questions that were unapproachable using traditional methods, strategically filling knowledge gaps.


    Développement d’un système connaissances pour BIG DATA application aux données de phénotypage chez le riz (O. sativa)

    Avril-Sept 2015

    Niv. : M2 ou Ecole d'ingénieur
    Stagiaire: Luyen LE Ngoc
    Encadrants: Pierre Larmande et Anne Tireau
    Sujet : l’objectif du stage proposé sera d’évaluer la faisabilité de gestion des BIG DATA couplé au technologies du Web Sémantique en s’appuyant sur les articles de synthèse du domaine. Par ailleurs, un état de l’art de solutions existante telles que les technologies proposées par le W3C sera envisage. Le sujet s’inspirera également de solutions développées dans le domaine biologique.

    Domaines Protéiques

    Intégration d'informations de co-occurrence pour la recherche d'homologies locales

    Mars - Aout 2015

    Niv. : M2 ou Ecole d'ingénieur
    Stagiaire : Christophe Menichelli
    Encadrant : Laurent Bréhélin
    Sujet : étudier une nouvelle procédure automatique permettant de découvrir de nouveaux domaines protéiques dans le génome d'un pathogène cible. Pour nos recherches, nous nous intéresserons essentiellement à Plasmodium falciparum, principal agent létal du paludisme chez l'homme.

    > Télécharger le rapport


     Études des propriétés amyloïdogéniques d’un ensemble de 92 protéomes représentatif du vivant.

    Mars - Aout 2015

    Niv. : M2 ou Ecole d'ingénieur
    Stagiaire : Etienne Villain
    Encadrant : Andrey Kajava
    Sujet : en analysant un ensemble de protéomes représentatifs du vivant on souhaite faire apparaitre la répartition de ces propriétées à l’échelle du vivant. Ensuite, produire une base de données de l’amylone prédit.

    > Télécharger le rapport

    Expression des gènes

    Régulations transcriptionnelles et post-transcriptionnelles de l’expression des gènes

    Mars - Aout 2015

    Niv. : M2 ou Ecole d'ingénieur
    Stagiaire Chloé Bessière
    Encadrants : Charles Lecellier, Laurent Bréhélin et Sophie Lèbre
    Sujet : évaluer l’action des protéines régulatrices dans l’expression des gènes en prenant comme variables leurs scores d’appariement aux différentes régions régulatrices de l’ADN et ARN

    > Télécharger le rapport

    Imagerie

    Création de gold-standard en segmentation d’images : extension logicielle Pythor

    Mars - Aout 2015

    Niv. : M2 informatique
    Stagiaire : Alizon Konig
    Encadrant : S. Ribes
    Sujet : Le processus de quantification des performances des algorithmes de segmentation d’images 3D souffre aujourd’hui d’un manque de disponibilité des expertises manuelles. En effet, la tâche d’expertise humaine est fastidieuse et parfois impossible à mener au regard de la quantité de données, et nous proposons donc d’améliorer cet aspect. Pour ce faire, nous proposons la réalisation d’une plateforme d’évaluation intégrant des approches algorithmiques de segmentation automatique, permettant ainsi d’alléger l’expertise en la réduisant à une correction des résultats algorithmiques via une interface utilisateur et un module de visualisation. Cette approche permet d’une part d’atteindre la quantification des performances et la validation des algorithmes mais ouvre également la voie à des réflexions concernant l’amélioration des approches via la prise en compte de la perception humaine ou encore à des réflexions concernant l’auto-validation via des stratégies d’apprentissage et de prédiction.

    Epigenetic

    Epigenetic Data Integration and Analysis

    Mars - Aout 2015

    Niv. : M2 informatique
    Stagiaire : Dagmara Robakowska Hyzorek
    Encadrant : Marie Mirouze, Pierre Larmande
    Sujet :The present project aims at studying existing approaches that overcome the challenges of epigenetic data analysis. Integration of heterogeneous measurements of epigenetics variation is non-trivial due to the diversity and variety of output data formats. To address these  issues, we aim creating tools to collect epigenetic datasets generated in different laboratories as well as from different databases and translate them to a standard format to be integrated, analysed and finally visualized. Objectives will be the development of an online epigenome and mobilome database for the rice data and will highlight tools used for linear and circular visualization of the data (Bules et al., 2016; Krzywinski et al.,2009).

    > Download the poster exposed at JOBIM

    Evolution

    Effects of sampling schemes and genetic drift on the admixture proportions calculated by the software STRUCTURE

    Mars - Aout 2016

    Niv. : M2 informatique
    Stagiaire : Ken Sebastian Toyama
    Encadrant : Raphaël Leblois, Pierre-André Crochet
    Sujet : Assessment of levels of hybridization and introgression with genetic markers has proven crucial to describe processes of reproductive isolation and speciation in nature. Correct estimation of admixture proportions and of the genetic structure of admixed populations is instrumental for these approaches. To accomplish these goals, specialized software have been developed, STRUCTURE being probably the most commonly utilized for population structure determination, as well as hybrid identification, hybrid zone detection, and estimation of admixture proportions. However, previous theoretical studies reported that STRUCTURE sometimes deliver unreliable results, questioning the results of some empirical studies based on STRUCTURE outputs. In this study, we evaluated how admixture proportions estimated by STRUCTURE are affected by sampling scheme, drift and number of genetic markers. We simulated data under a model where an admixed population is created from the equal contribution of two pure populations. Unequal sample sizes of the pure populations had the most important effect, as the results lacked accuracy and the admixed proportions tended to be biased towards the less sampled pure populations in cases of unbalanced sampling. On the other hand, the accuracy of the results was good when pure populations presented equal sample sizes. In cases of unbalanced sampling the accuracy of the results was reduced by reducing the relative size of the admixed population sample, but precision was also reduced in the process. As expected, shorter times of divergence between pure populations and longer drift periods for the admixed population further decreased the precision and the accuracy of the results.