Référencement framasite sur moteur de recherche

bdoualle · Février 3, 2019, 9:26

Bonjour à tous,

je pense que tout est dans le titre mais je vais préciser ici. J’ai créé un framasite pour me faire un petit CV en ligne histoire de me faire la main et de créer un nouveau moyen de me trouver sur le net., d’un point de vue PRO.

Mon problème c’est que je ne sors jamais dans les résultats des moteurs de recherche. J’ai deux noms de domaine hors “frama.site” que je viens d’obtenir.

Est-ce que j’ai une manipulation à faire pour que mon frama ressorte dans les moteurs de recherche ? Ou alors les nouveaux noms de domaine vont suffire ?

Merci d’avance

CM63 · Février 3, 2019, 9:57

Bonjour,

Il faut voir du coté du “duplicate content”. Ton nom de domaine peut-il être spécifié de plusieurs façons, genre avec ou sans “www”, auquel cas les moteurs de recherche, voyant que c’est le même contenu, vont diviser le référencement par 2 ou plus.
Dans le cas de “www” c’est un mauvais exemple, il y a longtemps que les moteurs de recherche, en tout cas Google, en tiennent compte, mais c’était pour t’expliquer.
Un autre cas , et là je ne sais pas si les moteurs de recherche en tiennent compte, bien que ce soit très répandu, c’est “http” ou “https” (utilisé lors du cryptage).
Le mieux, pour éviter ces problèmes, est d’établir des règles de réécriture d’URL dans le fichier .htacess . Pour dire aux moteurs de recherche; “attend titi ou tata c’est le même truc, c’est pas la peine de me plomber le référencement”.

Pour http/https, moi j’ai mis:

RewriteEngine on
RewriteCond %{SERVER_PORT} 80
RewriteRule .* https://%{HTTP_HOST}%{REQUEST_URI} [R=301,L]

Ça, ça va faire que, si l’internaute tape “http://…” ça va forcer https, et donc même punition pour les moteurs de recherche.

AyM · Février 3, 2019, 11:51

Il ne faut pas être trop pressé. Le référencement n’est pas immédiat.
Il faut d’abord que des liens extérieurs pointent vers votre site pour qu’il finisse par être naturellement référencé. Les liens doivent provenir par exemple de messages sur les réseaux sociaux, commentaires de blog ou forum, articles sur d’autres sites ou annuaires, etc…

Vous pouvez aussi remplir dans l’onglet « Paramètres » (icône roue cranté en haut à droite), section « Optimiser le référencement », les champs « Description » et « Mots-clefs » mais ça sert surtout à indiquer aux moteurs de recherche sur quelles genre de recherches votre site se positionne.

Concernant les règle de réécriture pour éviter le duplicate content, je rappelle que Framasite n’est pas un service d’hébergement. Les utilisateurs n’ont pas la main sur la configuration du serveur. Normalement, c’est déjà prévu en amont par nous (ping @Framasky).

bdoualle · Février 3, 2019, 12:31

Merci pour vos réponse rapide.

J’ai créé mon framasite il y a de cela plusieurs mois. Mais si je comprends bien, il ne pouvait pas être référencé en temps que tel. Il faut que j’attende quelques temps dès lors que la redirection fonctionne correctement.

J’ai cru voir des manipulations a faire avec l’outil de google ou bing pour améliorer le processus mais cela nécessite de toucher à des choses auxquelles je n’ai pas accès ni sous framasite ni sous mon nom de domaine (à préciser ce sont des noms de domaines gratuits “.fr.nf” et “.infos.st” via azote.org (c’est p-t une connerie mais pour voir l’intérêt et l’utilité de la chose, je pense que ça suffit)

Donc la patience suffira, si je comprend bien.

kawekaweau · Mars 3, 2019, 5:17

Je remonte le topic car j’ai le même problème pour mon wiki :
https://evolution.frama.wiki

Je comprend que le référencement peut prendre du temps, mais en regardant le code source, je vois un <meta name="robots" content="noindex,nofollow">. Or avec ces balises, je crois que les moteurs ne sont pas sensé indexer le site, non ? Ou j’ai rien compris ?

AyM · Mars 3, 2019, 7:24

Sur les wikis, cette ligne apparaît sur les pages récemment créées pour éviter le spam. Il y a un délais avant qu’elle ne disparaisse (5 jours par défaut).
Le délai se configure dans Administrer > Paramètres de configuration > Paramètres anti-spam > Délai avant l’indexation (secondes)
https://www.dokuwiki.org/start?id=fr:config:indexdelay

kawekaweau · Mars 4, 2019, 8:57

Merci pour la réponse. Je viens de tester, ça marche bien.

MattOTop · Mars 5, 2019, 7:39

Bonjour.
C’est ma première intervention ici, je suis référenceur, et suite à un échange avec le compte twitter framasoft, je suis venu voir si je ne pouvais pas aider le projet sur son SEO (et sur des problèmes de confidentialité détectés sur certain tools framasoft).

Alors si je peux me permettre 2 choses, concernant ce point du « noindex, nofollow ».
D’abord, le noindex protège la page contre l’indexation, et ce n’est pas souhaitable pour la page de wiki elle même, qui a vocation à apparaître dans google au final. Donc déjà, pas de noindex, sauf si la page à trop peu de contenu propre (là, c’est une question de qualité générale des pages du wiki/site, il vaut mieux éviter les pages pauvres).

Ensuite, le « nofollow » sert à ce que les liens sortant sur une page ne passent plus leur pagerank.
C’est donc une bonne mesure pour « démonétiser » un wiki aux yeux des spammeurs (comme moi), en empêchant les liens sortant du site d’avoir le moindre intérêt en référencement. Mais en le mettant pour toute la page dans la meta robots du <head>, ça coupe aussi le pagerank que se renvoient entre elles les pages du wiki, et le pagerank du site, qui est une sorte d’onde (une probabilité de présence), ne circule plus, il est remis au pot commun du pagerank global du web, et perdu pour le site ou on a mis en nofollow le maillage. Donc le wiki avec ses coupures dans le maillage parceque le nofollow est dans le head perd toute capacité à se positionner et à exploiter la force de ses « backlinks ».
Il ne faut donc jamais mettre de nofollow dans la meta robots du <head>, mais il est effectivement utile d’ajouter un attribut rel=« nofollow » sur les <a href> vers les pages qui ne sont pas interne au site. Mais surtout pas sur les liens internes.

Et donc, les spammeurs qui le savent n’ont qu’à venir 5 jours aprés la création de la page y ajouter leur liens.

Bref résumé:

aucun noindex, si la page doit apparaitre un jour dans google,
des nofollow seulement vers les pages à l’exterieur du site, et uniquement lien par lien.
Enfin on peut aussi mettre du nofollow sur des liens internes vers des pages sans intéret quand on a des probléme de crawl avec des millions de page et qu’on veut prioriser le crawl de google, mais c’est un cas extrème.
oubliez cette histoire de protection antispam qui saute au bout de 5 jours, aucun intérêt.

Voilà, c’était ma première contribution, merci de votre attention et bonsoir.

AyM · Mars 5, 2019, 8:57

Ce n’est pas une protection que nous avons mis en place. C’est le fonctionnement par défaut inclus dans Dokuwiki. Ça se configure comme chaque administrateur·rice de wiki le veut.

Si ça vous intéresse les développeurs de Dokuwiki expliquent leurs stratégies là-bas

Si on se rend sur n’importe quelle url aléatoire d’un wiki on tombe sur « Cette page n’existe pas encore ». Ce ne sont pas des pages qui ont vocation à être indexées tant qu’il n’y a pas de contenu.
Et on ne peut pas présupposer qu’elles seront réellement créées. Il me semble que ça présente un risque de surindexation et de contenu dupliqué.

Certes mais l’administrateur·rice sera sûrement informé·e de la création de la page entre temps et donc pourra la supprimer avant qu’elle ne soit alimentée et ne cause du tord au référencement du site. Je pense que c’est là tout l’intérêt de cette stratégie.

MattOTop · Mars 5, 2019, 11:26

Oui, mais rien ne dit que les concepteurs de dokuwiki soient vraiment doués en référencement ni cultivés en matière de spam, donc que les solutions qu’ils proposent sont utiles, adaptées, efficaces. Et ils peuvent surtout avoir plus de temps pour mettre en place de nouvelles features, que de « perdre du temps » à trouver les meilleures réponses antispam: « ouais ben on a mis quelque chose en place, je ne sais pas si c’est parfait, mais il faut que je code mon module en drag’n drop d’image, c’est plus important ».
Ils sont bénévoles aprés tout (ou pas s’ils ont la chance d’un financement, mais bon), ils font ce qu’ils veulent, non ?

Et je rappelle: je ne suis pas venu aider dokuwiki, mais les framatools, en l’occurence, frama.wiki. Aprés, rien n’empêche de leur faire remonter les patchs qui pourraient être testés et validés sur frama.wiki.

LU.
Alors là, OK, je comprends mieux leur idée d’un timing pour laisser le temps de vérifier l’absence de nocivité du contenu créé, mais là encore, ça ne sert à rien dans le cadre d’une lutte antispam SEO:
le spammeur n’a qu’à créer une page anodine, attendre de voir si elle tient, puis quand elle devient indexable, modifier le contenu et provoquer une indexation rapide (pas super dur, il suffit de tweeter l’url).
Mais la simple indexation de pages sur des sites ouverts n’a en général d’intérêt pour les spammeurs SEO (je ne sais pas pour d’autres types de spam) que si on peut y mettre des liens follow, donc d’un point de vue lutte antispammeur seo, c’est seulement le nofollow permanent et définitif sur tous les liens sortants qui les écartera.

Il y a bien un usage dit de « negative SEO » basée une inondation sur le web de copies d’une page que l’on veut faire dévisser des résultats de google, qui justifierait une préoccupation concernant l’indexation pour la lutte antispam SEO, mais pour ce type de spam, les spammeurs ne regardent même pas si les endroits ou ils posent sont indexables ou non, ils regardent juste s’ils peuvent poser, en essayant de le faire, et cherchent juste un gros volume en espérant que la majorité de leurs spams survivent.
Pour ce type de spam (pas super répandu) ou une page va se retrouver crée par ci par là, si on ne veut vraiment pas que le contenu de spam soit indexé, ce n’est pas « un certain temps » qu’il faut empêcher l’indexation, c’est jusqu’à validation par la modération.

OK, là, je suis arrivé un peu vite dans votre discussion, je n’avais pas vu dans le détail, j’ai parlé un peu à coté, désolé.
Moi je parlais de pages existantes, pas d’urls présentes dans des pages, pointant vers des pages pas encore créées (je sais comment fonctionne un wiki). Dans ce que je disais et sur ces pages nouvellement créées, il ne faut pas les laisser s’indexer tant qu’elles sont vides et il vaut mieux même ne pas les indexer tant que leur contenu propre n’est pas significatif (un ordre de grandeur de mots dans le corps de texte bien plus petit que dans l’habillage). Ca, c’est pour limiter le contenu pauvre.

Mais ce que tu décris est un autre problème, et il doit a priori être déjà bien traité par le wiki.
Là, tu parles (je me permet un tutoiement fraternel de libriste) d’urls vers des pages qui n’ont pas encore été crées, pas de pages.

A cause de ces urls, il pourrait effectivement y avoir ce que tu appelle de la surindexation, terme que je ne connaissais pas en dehors du jargon technocratique des enarques, mais qui si ça correspond à ce que je pense, s’appellerait plutôt une saturation de l’index:
toutes ces urls, le moteur va essayer de les crawler.
Si les urls sont indexables avec le contenu « Cette page n’existe pas encore », il stockera leur contenu, créant effectivement du contenu dupliqué puisqu’elles sont toutes pareilles, puis reviendra les crawler indéfiniment en mangeant le quota de crawl limité que le moteur a attribué au site (car chaque site a un quota défini), minimisant pour les vraies pages le rythme de (re)passage du robot, et pénalisant ainsi leur bonne indexation.
On peu recréer ce phénomène de ralentissement de la découverte et du recrawl des bonnes pages sur des sites configurés pour rediriger vers la home tout le trafic qui devrait aboutir en 404 not found.
En « negative seo », ca se fait en générant sur tes propres sites des tonnes de liens , vers des urls toutes différentes et inexistantes sur le site qui a ce défaut et que tu veux attaquer. A noter que dans ce type d’attaque, les liens doivent être trés faibles pour éviter d’envoyer trop de poussée à la cible et de mauvaise qualité pour éventuellement lui provoquer au passage un fitrage nseo d’un autre type (penguin)

Mais heureusement (je n’ai pas pu vérifier si c’était pareil sur frama.wiki car le premier « créer la page » que je viens de tester me renvoie sur une page blanche sous chromium) sur wikipedia les liens vers des pages à créer sont juste des pages qui répondent en http 404, donc ces urls non indexables ne saturant pas l’index ni ne mangent le budget.
En fait, techniquement, c’est juste la page « 404 not found » qui est customisée pour devenir la page « Cette page n’est pas encore créée », composée avec des éléments trouvés dans le referer et dans l’url déclenchant le 404.
C’est tout, il a suffit de customiser la page 404, et j’imagine que c’est la même chose sous frama.link/dokuwiki.

Voilà, je ne sais plus où je voulais en venir, alors bonne nuit.

Mindiell · Mars 6, 2019, 10:23

Alors, non. On ne peut pas laisser passer ça ici. La page a vocation à potentiellement apparaitre dans les moterus de recherche, tous, pas Google. Il faut arrêter de « penser » internet = Google + facebook :o/

MattOTop · Mars 6, 2019, 1:19

LOL

J’ai fait un effort pour ne pas dire Google, mais ca a traversé mon clavier inconsciemment…

Aprés, c’est une question d’accepter la réalité:
si tu ne veut pas t’exclure de la visibilité sur encore 94% des recherches faites en france (même 98% sur mobile), obligé de faire avec google.

Mais oui:
zappez tous sur Qwant !

Mindiell · Mars 6, 2019, 1:25

Tu passes de charybde en scylla… Mais je suis un intégriste du libre.
L’important c’est d’être référencé correctement (sujet de la discussion) pas de savoir sur quel moteur j’apparais ou pas ;o)

On a eu ce même souci (qui revient régulièrement) avec les navigateurs dans les années 2000 : chaque navigateur inventait ses tags HTML ou ses objets javascript. Lorsque les devs ont décidé de faire « juste du web », les navigateurs ont arrêté leur bêtises ;o)

MattOTop · Mars 6, 2019, 1:32

Bon, moi je suis libriste aussi: je n’ai pas touché d’autre OS que du GNU/{linux/bsd} depuis facile 10 ans* !
Allez, si, je ment: j’ai une VM windows seven avec une licence ESD payée 10 balles, pour faire tourner le logiciel google ads, car j’ai des campagnes de clients à gèrer.
Je l’avoue, je suis un peu vendu.

Mais pardon pour Qwant, qu’est ce que tu leur reproches, à part la personnalité limite de Léandri ?
Même Nitot bosse pour eux… C’est pas une bonne caution ?

*[edit:]Et 25 ans que GNU est mon OS principal.

MattOTop · Mars 6, 2019, 1:41

Ah ouais, j’ai 6 android, aussi…
Et 3 ipads…
Bon, c’est pas bien… Quand je pourrais faire tourner mon business auto salarié sans toutes ces daubes, je m’en débarrasse, promis.

Mindiell · Mars 6, 2019, 2:18

Désolé, je ne voulais pas te reprocher quoi que ce soit… Tu dois gagner ta vie et c’est bien normal. Ce n’est pas toujours facile de pouvoir le faire comme on le souhaite et avec la philosphie qu’on veut. J’ai bossé pour du groupe pharma et des machins pétroliers fut une époque…

Sinon, qwant je leur reproche qu’ils fonctionnent finalement de la même manière. Par ailleurs, je ne trouve pas que Nitot soit une caution, il est très bien et tout hein, mais il ne dirige pas la boite, il y travaille juste. Est-il plus une caution pour la boite ? C’est une bonne question je trouve.

bdoualle · Mars 9, 2019, 8:41

Alors là, je m’attendais un peu à ça mais peut-être pas à ce niveau parce que même si je comprend le discours idéologique… ça part au delà de mes compétences et de ma compréhension, du coup je sais pas trop si une solution existe au final. ou si ce que je veux faire est en fait “contre” les valeurs de framasite.

J’ai bien saisi la subtilité du “noindex” mais pas sur de pouvoir modifi ça avec un framasite.

En gros, mon problème c’est que j’aimerais que quand on tape mon nom “benjamin Doualle” ou des mots clé du style “education environnement” dans un moteur de recherche (gogole, ecosia, duckduckgo ou qwant, peu m’importe) mon framasite apparaisse.

On m’a dit qu’il faut du temps mais ça va faire un an que ma page est active, est-ce que je dois inonder mon fb, google+ (complétement inactif), linkedin avec l’url pour que ça fonctionne ?

MattOTop · Mars 9, 2019, 10:14

Sur ton nom, il y a assez peu de concurrence, donc si une page de ton site ton site contenant ton nom était correctement configurée pour être indexable par les moteurs, elle aurais du apparaître quand on tape ton nom.

Bon, ça c’est une recherche trop générique pour que tu y figures juste « comme ça », parce que tu en parles. Pour y figurer, il faudrait que ta page réponde parmi les meilleures à l’intention de recherche des internautes derrière l’expression « education environnement » pour que déjà tu sois sélectionné pour les premières pages, et que tu aies beaucoup de liens entrants (des citations sur d’autres sites) qui sont en quelque sorte des « votes » pour donner aux moteurs le signal que ta page est reconnue par de nombreuses personnes à l’extérieur sur le net.
C’est un peu en raccourci le sens du classement grâce à l’algorithme de pagerank, basé sur les liens entre pages, que je t’invite à lire sur wikipedia: vu ce que j’ai perçu de ton niveau scientifique (si c’est bien toi qui est passé par les mines), tu devrais comprendre assez facilement le principe de base de classement des pages sur google: un lot de pages liées entre elles forment un graphe, et le pagerank de chacune (sachant que la somme du graphe est 1) est la probabilité de présence d’un internaute sur l’une ou l’autre de ces pages en fonction des liens qu’elles ont entre elles.
Quand une page est sélectionnée parce qu’elle correspond à la requête, elle se retrouve en gros classée ensuite avec les autres pages pertinentes en fonction de son pagerank.

Non, ça, ça ne sert strictement à rien, pas plus que de cliquer dans les résultats d recherche des moteurs.
Le seul moteur de progression dans les résultats, ce sont les liens entrants vers le site/la page à faire progresser deans les résultats.
Mais au bout d’un an, si tu ne remontes pas sur ton nom, c’est qu’avant même d’avoir un probléme de popularité, tu as un probléme d’indexation et les moteurs ne voient pas tes pages.
Pour diagnostiquer mieux, il faudrait que je connaisse le site ou la page (en MP ?).

bdoualle · Mars 9, 2019, 10:35

C’est exactement ça mon problème… Donc maintenant je fais quoi pour régler ça ?

En vrai, y’en a pas tant mais bon si ça marche pour le nom ça marche pour n’importe quel mot clé « education environnement », « gateau à la cerise » ou « chmilblik », juste moins de chance (ou plus long) de remonter en Top résulat

MattOTop · Mars 9, 2019, 11:06

Sinon, je ne peux pas t’aider plus.