Suivre

Et si on partage nos recherches avec Yacy ? - Dryusdan.fr dryusdan.fr/et-si-on-partage-n Yacy, le moteur de recherche en Peer 2 Peer pour se passer de Google. Et si on regardait un peu plus en détail cet outil ? #Yacy #SearchEngine #P2P #DHT #Autohébergement #selfHosting #autopromo link.dryusdan.fr/?4u3Ntw

@Eragon
Elle est pas encore fonctionnel car elle traite énormément de site et donc est très très lente

@Dryusdan Dac, car j'ai dl et lancé une instance locale et ça semble pas mal, mais gourmand en resources, mon pc passe de 5% de charge à 80... en 10 seconds...

@Eragon
Si tu fais de l'indexation oui c'est très gourmand (j'suis a 3 noeuds pour réduire cette consommation

@Dryusdan Awé... tu indexe quoi ?
drycat, dyusdan.fr et d'autres ?

@Eragon Non, mais je l'ajoute pour la prochaine passe :)

@l4p1n @Eragon j'ai 1 250 000 entrées ^
J'espère en avoir plus ^

@Dryusdan @Eragon /me se demande si t'as mis mon blog dans le tas :p

Je suis en train d'indexer mon bordel qui est sur git.l4p1n.ch histoire de le partager aux autres. Je vais encore ouvrir un port pour le DHT et on devrait être bon :)

@l4p1n @Dryusdan Bah quand dryusdan le met en public on à une liste de sites déjà indexés x)

@devnull @framasky
Oui, il a été indexé récement
Comme le site de @sebsauvage (que j'indexe depûis 2j)
Plus plein d'abonnement RSS qui alimente la base d'index (vive les flux RSS)
C'est long, lent, mais y a du potentiel ^
@Eragon

@Dryusdan @devnull @framasky @sebsauvage Il faudrais qu'on puisse proposer des sites à indexer, puis les instances(admins d'instances ou automagiquement) viennent regarder(via un flux rss) les proposition pour les indexer, quand un site est indexé et rendu public dans l'index global, il est marqué comme indexé sur le site de manière à ce que le logiciel puisse passer au site suivant et répartir la charge d'indexation.

@Eragon tu peux indexer sans avoir besoin de te connecter je crois ^
Mais je pense que je vais bloquer ça car ça explose les ressources...

Par contre la répartition d'indexation c'est possible si les instances supportent le remote crawling.
Par exemple j'ai 3 noeuds. Le noeud 1 a les infos et demande à d'autre peer de crawler pour lui.
Pareillement je pourrais faire un cluster de noeud pour qu'ils se répartissent la charge entre eux. Mais ça signifierai qu'il ne récupérerai pas d'index d'autre noeud, mais ils seront intérogeable
La meilleurs architecture serait un noeud de consultation uniquement, qui consulte un cluster de noeud
Mais en trme de ressource ça couterai plein de sous 😅

Aujourd'hui par contre n'importe qui peut aider à l'indexation en créant un noeud (t'installe le soft sur ton ordi) et en autorisant le remote crawling ^
@devnull @framasky @sebsauvage

@Dryusdan @devnull @framasky @sebsauvage Hum... routeur ne l'autorise pas, et j'ai plus son mot de passe, faudrait que je demande à mon frangin

@Eragon
Comment ça ? Tu as un message dans" état du système" ?

@Dryusdan Je sais plus ou c'était, faut que je re regarde, mais il n'est pas accessible de manière distante.

@Eragon
IPv6 ou 4 ?
Tu as fais un nat à partir de ta box ?
Ouvert le firewall ?

@Dryusdan ipv4 normalement le routeur bloque tout donc je sais bien ou ça coince, mais j'ai plus les identifiants

@Eragon
Le miens je clic pendant 5s sur wps pour y accéder 😅

@Dryusdan Hum...
En réalité le problème vient sans doute du second routeur...

@Dryusdan Deux, un branché au modem, et un autre branché sur le premier, de manière à pouvoir avoir plus de ports et de gérer différemment les deux réseaux... mais le second refuse de se laisser faire quand je veux me connecter dessus. Le premier il est ok...

Afficher plus

@devnull @Dryusdan @framasky @sebsauvage après dégooglisons internet, déframasoftisons internet voici Dédrycatisons internet

@Dryusdan

C'est pas possible d'en faire une instance partagée?
Par exemple sur drycat (exemple choisi tout à fait au hasard bien sûr)?

@LienRag
C'est l'idée. Y en a une qui indexe plein de site en ce moment. J'ai pas encore de date de sortie car c'est lourd et ça demande plein de ressources et vu le peu de site indexer ça desservirai plutôt le logiciel que l'inverse, mais à l'avenir j'aimerai bien en effet

@Dryusdan Dans ton article tu dis "il n'y a pas de profilage, donc pas de bulle de pensée" ce qui est assez faux, c'est même assez identique à Google en pratique.
Il n'est certes, pas direct comme Google, mais il se situent à un autre endroit : tu n'as les résultats que de ce qu ia été crawl, et comme Yacy semble se baser sur une base de connaissance lié à a conf (je veux indexer ci et ça), t'as une bulle de pensée de l'admin du Yacy

@Sp3r4z
Pas exactement car l'index est partagé entre tout les nœuds :)

@Dryusdan dans un monde idéal, en théorie. Sauf qu'en pratique c'est plus aussi "génial" :
- Combien d'instances Yacy ?
- La somme des individualités peut créer des troues
- Comment avoir conscience des autres instances ?

C'est pas aussi évident, je pense :s (le projet est cool, clairement ;) )

@Sp3r4z
500 environs, d'où le topic et peut être un appel a en créer.
Y a plein de tracker (j'ai pas trop creuser) qui référence les peer (P2P) et les index sont partagés grâce à DHT

@Dryusdan D'accord, donc c'est pas mal en terme d'infra.
Par contre, c'est dommage que jamais personne parle du fait que c'est forcément biaisé. Ça peut crawler en sauvage ? (genre sa trouve un lien vers un site, ça se met à la crawl ou pas ?)

@Sp3r4z
N'importe qui peut envoyer des sites a indexer
L'outil peut indexer des pages grâces aux flux RSS
Tu peux avoir eu crawling avec plein de profondeur.
Inconvénient tu as raisons, si personne veut indexer twitter, twitter ne sera que peu indexer.
Avantage : plus de point central

@Dryusdan Les avantages je les ai (je ne suis pas sur Mastodon pour rien ;) ), tu les explique aussi dans ton billet ;)

Mais t'as touché du doigt ce que je voulais dire (un peu maladroitement) sur le fait que si personne indexe twitter, il n'existe pas. Sans pour ça défendre Google, l'économie fait qu'il indexe quand même beaucoup (pour pas dire quasi pléthorique), la restitution est cependant bien différente…

Autre question : la pertinence des résultats (il y a un travail là dessus à faire)

@Dryusdan ↑ Pour travailler avec du SolR au taff, je sais que la pertinence est au final la colonne vertébral du truc (comme l'analyse des données en statistiques). C'est important, et ça sera à se poser.
Google on lui tape dessus, mais j'attend quand même de voir la politique te la gouvernance des résultat dans ce genre d'outil :s

@Sp3r4z
Google indexe beaucoup mais affiche pas tout
Sur le coup Yacy pareil.
Pour être franc j'ai vu plus des résultats à la qwant qu'à la Google

Après tout le monde peut être le réseau et installer yacy sur son poste / serveur

@Dryusdan Complètement, je sais bien.
C'est juste que les questions sont très intéressantes, et pas du tout évidentes en réalité. L'outil (ici Yacy) est assez peu important, on l'a vu avec Mastodon, l’outil fonctionne, mais c'est une petite partie de la solution. Ladite solution étant : la gouvernance, et ce qui es est fait :)

Inscrivez-vous pour prendre part à la conversation
Miaou !

Mastodon est un réseau social utilisant des protocoles Web ouverts et des logiciels libres. Tout comme le courriel, il est décentralisé.