Meta-Press.es

Moteur de recherche décentralisé & revue de presse automatisée

Feuille de route 2018

Comme vu dans le précédent billet, le projet s’articule aujourd’hui autour d’une preuve de concept fonctionnelle. Il reste beaucoup à accomplir pour tenir les promesses, et il me reste beaucoup à coder avant d’en arriver à appeler à vos contributions pour enrichir la base de journaux parsés.

J’ai tout d’abord quelques petits bogues à corriger, notamment sur l’apparence, sur le filtrage par date, ou la sous-recherche fournie par la bibliothèque de fonction List.js, actuellement trop lente.

Ensuite, l’outil permet de filtrer rudimentairement les derniers résultats obtenus par date, mais j’aimerai proposer un filtrage a priori, permettant de ne récupérer que les résultats d’une tranche de date définie. Vu que la plupart des journaux ne proposent pas cette fonctionnalité directement, il va falloir parcourir de nombreuses pages de résultats pour trouver ceux ayant l’age souhaité.

Ce n’est qu’une fois cette partie débroussaillée qu’il me semblera judicieux d’élargir la base de journaux interrogeables, car il est probable qu’on puisse se contenter de ces fonctionnalités là pour la première version publique (appelons là version 1). Une fois l’API à remplir pour ajouter un journal stabilisée il sera temps d’ajouter plein de journaux. Bien sûr, ajouter des journaux dans toutes les langues, et pas seulement en anglais va poser des problèmes, notamment vis à vis de l’analyse des dates, mais je reviendrais sur ce point, j’ai un atout en réserve sur cette question, datant du prototype de 2013.

1. Routine de vérification

Que des contributeurs m’aident à intégrer plein de journaux serait formidable, mais l’approche étant basée sur le parcours de l’interface web des journaux, on ne sera pas à l’abri de leurs modifications, or chaque changement de structure imposera une mise à jour de notre connaissance du journal.

Pour rester à jour, il faudra donc mettre en place une suite de tests vérifiant chaque journal, potentiellement chaque nuit, et permettant de repérer rapidement les journaux à retravailler.

Pour ce faire, j’ai pour l’instant pris soin de consigner, pour chaque journal intégré, un terme apportant des résultats, et un autre sans.

2. Choix et mise à jour des sources de journaux

Il est probable que la base des journaux soit souvent mise à jour. Il faudra donc veiller à ce que ces mises à jour arrivent vite aux utilisateurs.

Ça pourra sûrement ce faire via le mécanisme de mise à jour des extensions de Firefox, mais il faudra peut-être passer par une routine de mise à jour à chaque requête…

De plus, il serait intéressant que Meta-Press.es ne devienne pas le censeur qu’il cherche à contourner. Aussi, je compte mettre en place, dans les options (à venir) de l’extension, la possibilité de déclarer d’autres sources de journaux que la notre. Cela permettra d’aller vers d’autres usages que celui, relativement généraliste, que je vise.

3. Étiquetage et sélection

Une fois équipé de centaines, voire de milliers de journaux, on ne pourra plus les interroger tous à chaque requête, ça prendrait trop de temps. Il faudra donc permettre facilement de sélectionner les journaux les plus pertinents pour une requête donnée, et si possible descendre à une trentaine de journaux interrogés.

Il sera possible de filtrer les journaux disponibles par :
- langue (de l’utilisateur) ;
- pays (de l’utilisateur) ;
- thème : politique, sport, écologie…
- périodicité : quotidien, hebdomadaire, mensuel…
- critères techniques : vitesse de réponse, HTTPS…

De plus, certains journaux me posent un problème moral actuellement. En effet, au lieu de m’aider à contourner le monopole de Google en indexant leurs propres données, ils ont adopté Google comme moteur de recherche interne. C’est notamment le cas du Guardian. Quitte à faire un beau panel d’options de filtrage des journaux, autant en rajouter une pour éviter de chercher chez ceux qui ne font pas l’effort d’indexer leurs données.

4. Import / Export

Après chaque requête, des centaines de résultats sont affichés sur la page de l’extension. Il a fallu du temps pour rassembler ces résultats. Il serait donc intéressant de pouvoir sauvegarder ce travail, pour le reprendre ensuite, le transmettre à quelqu’un ou travailler hors-ligne… Ça ne devrait pas être très dur, car nous connaissons la structure des résultats (titre, date, description…). Il suffira de faire correspondre ça avec un format existant (RSS ou ATOM par exemple).

C’est en m’appuyant sur ces exports, que je compte arriver à une publication en ligne en un clic d’une revue de presse.

5. Partie publication

En effet, une fois les résultats listés, rien n’empêche de leur ajouter des cases à cocher devant, pour en faire une sélection et de n’exporter que cette sélection. Si elle était exportée vers un une application, dans un cloud personnel, cette dernière pourrait se charger de publier la sélection sur le web, sous forme de liste paginée, sans rien autour, idéale à intégrer dans une iframe, pour rejoindre le site web existant d’une association par exemple…

Et là, d’un coup, faire une revue de presse devient rapide et pratique. Voir le précédent billet à ce propos.

6. Meilleure intégration dans Firefox

Enfin, quitte à proposer un moteur de recherche, autant qu’il soit listé dans les moteurs de recherche de Firefox… Et puis, j’ai encore beaucoup à apprendre sur la gestion des paramètres d’une extension.

***

Voilà, et je ne parle là que de ce qui me semble nécessaire pour la version 1.
Il y a déjà des fonctionnalités que je repousse à une probable version 2.