Elastic Rennes Meetup #2 - NLP et autocompletion puis Machine Learning

France
Thu, Dec 13, 2018, 7:00 PM (CET)

About this event

Lieu confirmé: Salle Ruby à la FrenchTech (Mabilais)

Rejoignez-nous pour notre second meetup sur Rennes !

Déroulement de la soirée :

19H00 Talk 1: Auto-complétion avec Elasticsearch sur du fulltext intégral non structuré à l'aide de techniques de NLP
19H45 Talk 2: Machine Learning avec Elastic
20H30 Social discussions (food and drinks)
21H30 Fin du meetup

Talk 1: Auto-complétion avec Elasticsearch sur du fulltext intégral non structuré à l'aide de techniques de NLP

Lorsqu'un utilisateur navigue sur un site web avec une fonction de recherche, l’auto-complétion est en général la première fonctionnalité utilisée. Elle se doit donc d'être la plus optimale possible.

Réaliser un service d’auto-complétion à l'aide d'un moteur de recherche tel qu'Elasticsearch ou Apache Solr semble souvent aisé.
En effet, dans la majorité des situations, il s'agit de retourner des auteurs, des titres ou du moins un ensemble de libellés assez courts.

Dans le cadre d'un projet, il nous a été demandé d'effectuer un service d’auto-complétion sur du texte complet non structuré.
Le fond documentaire utilisé est un mélange d'extractions de documents PDF et de contributions éditoriales en langues française et anglaise.
Malheureusement ces extractions de documents PDF sont de qualité très variable (de médiocre à correcte).

Le cahier des charges était le suivant :
- ce service d’auto-complétion permet de trouver des expressions issues du fulltext à partir de n'importe quel début de mot de l'expression ;
- il doit être tolérant aux erreurs de frappe ;
- il doit être le plus performant possible à la recherche ;
- et bien entendu, la qualité doit être au mieux de ce qu'il est possible d'obtenir avec le fond documentaire du projet.

L'idée de cet échange est de présenter :
- les méthodes choisies pour réaliser ce service avec toutes ces contraintes ;
- les difficultés rencontrés ;
- les améliorations/adaptations possibles.

Ludovic Boutros (Zenika) nous présentera ce premier talk.

Talk 2: Machine Learning avec Elastic

Comment fonctionne le machine learning d'Elastic, et comment l'utiliser pour traquer des données anormales dans votre SI.

David Sztykman (@dsztykman sur Twitter), Solutions Architect chez Elastic, est spécialisé dans les environnements distribués et Cloud. Avant d'intégrer Elastic, il a travaillé plus de 10 ans dans le monde du CDN (Content Delivery Network) et la sécurité notamment sur les problématiques de Web Application Firewall distribué.

When

Thursday, Dec 13
7:00 PM - 10:00 PM (CET)

Organizer

  • David Pilato

    David Pilato

    Elastic

    Developer | Evangelist

    View Profile