Partager cette page
novembre 2016

Contexte et approche

Datawords, acteur pionnier du Semantic Asset Management, renforce son activité Natural Language Processing et Machine Learning.
 

Encadré (e) par le Chief Technology Officer, en tant que Semantic Data Scientist, vous participerez à la création de solutions innovantes dans ce domaine.


Dans un premier temps, il sera attendu de vous que vous approfondissiez votre connaissance :

  • Des marchés et des métiers de Datawords
  • De notre écosystème digital et de nos process internes de travail
  • Des défis de Semantic Asset Management que vous devrez relever en tant que Semantic Data Scientist

 

Vous devrez mener votre mission en suivant une véritable démarche analytique de R&D :

  • Segmentation du problème en sous-problèmes
  • Pour chaque sous-problème, identification de la famille de problèmes (régression, classification) et état de l’art sur leur traitement
  • Benchmark des algorithmes les plus performants pour chaque famille de problèmes identifiée (exemples : Naive Bayes, Réseaux de neurones, SVM, Random Forest…)
  • Recommandation sur les meilleurs algorithmes à mettre en place (en détaillant les raisons de vos choix) et sur les features à utiliser
  • Prototypage des algorithmes sélectionnés
  • En fonction des résultats obtenus avec les prototypes, étude d’opportunité d’industrialisation de la solution

 

Vous devrez organiser le développement de la solution en pipeline composé de plusieurs étapes de traitement. Après une première phase de ceiling analysis durant laquelle vous identifierez les étapes de traitement « critiques » qui nécessiteront un effort particulier, vous pourrez définir en collaboration avec notre CTO les sprints correspondant à chaque étape de traitement identifiée, suivant les préceptes des méthodes agiles.

Pour chaque sprint, des objectifs et des délais de traitement spécifiques seront définis. Des revues de projet seront mises en place à la fin de chacun de ces sprints.

 

Mission

L’objectif de ce stage est d’explorer des nouvelles approches algorithmiques dans le cadre du développement de nos logiciels Semantic Asset Management.

En conservant une approche intrinsèquement multilingue dans la résolution des problèmes, nous vous proposons :

  • Dans un premier temps d’explorer les données sémantiques multilingues à notre disposition et de les structurer dans des bases de données performantes
  • D’implémenter des algorithmes tels que ceux cités précédemment pour :
    • L’extraction de mots-clés d’un contenu sémantique
    • L’analyse automatique de sentiments pour suivre de manière plus efficace l’image de marque de nos clients sur les médias sociaux par exemple
    • La météo sémantique d’un secteur (i.e. identifier de manière automatique des tendances de communication sur le web)
  • Vous devrez chercher en permanence à optimiser vos algorithmes, à améliorer leur performance (notamment via le monitoring d’indicateurs tels que Precision et Recall), leur stabilité.

 

Si les résultats obtenus sont concluants, la rédaction d’un papier dans l’optique d’une soumission pour publication dans une revue scientifique telle que l’ACM pourra être envisagée.

 

Compétences et expériences souhaitées

Profil souhaité

  • Diplômé (e) d'une Grande Ecole d'Ingénieurs
  • Compétences en programmation (Python, Django REST, Java, SQL…)
  • Vous êtes rigoureux(euse), dynamique et autonome
  • Excellente communication orale et écrite, anglais et français
  • Attrait pour l'international

Compétences et expériences appréciées

  • Appétences pour le digital et les nouvelles technologies
  • Expériences à l’international
  • Expériences et/ou connaissances des méthodes agiles

Conditions

  • Stage long, temps plein
  • Poste à pourvoir immédiatement

 

 

je postule