Quand un journal scientifique en ligne cache son contenu payant avec du CSS « pour avoir un meilleur Google ranking »…

Quand un journal scientifique en ligne cache son contenu payant avec du CSS « pour avoir un meilleur Google ranking »…

Aaaahhh… Les journaux scientifiques… Pour ceux qui ne sont pas familiers avec leur fonctionnement, sachez que celui-ci est assez surprenant pour quelqu’un d’étranger à la recherche académique. Pourtant, ce sont eux qui décident de la diffusion ou non des études scientifiques. Alors quand un journal qui mise tout sur le numérique se prend les pieds dans le tapis en diffusant en clair dans ses sources l’intégralité des articles payants aux non-abonnés, ça devient presque drôle ! Mais quand il se justifie en disant faire ça pour des questions de SEO, ça devient plutôt pathétique…

Un journal “scientifique”, c’est quoi ?

Ce qu’on appelle un journal scientifique, c’est normalement avant tout un journal qui diffuse des articles rédigés par des chercheurs pour présenter leurs résultats (le tout en anglais). Chaque article est soumis à un comité d’experts avant publication pour être sûr de la véracité de l’étude et pour s’assurer aussi que tous les éléments soient bien détaillés pour que l’étude soit reproductible par n’importe qui.

Dans des temps très reculés mais pas tant que ça, on n’avait pas internet ! Alors les journaux scientifiques étaient le seul moyen à la fois de se renseigner de ce que faisaient les collègues en s’y abonnant, et le seul moyen de faire connaître ses dernières trouvailles en y publiant. Les abonnements étaient assez chers mais il fallait imprimer des journaux format annuaire et les envoyés aux quatre coins du globe… Malgré leurs coûts, petit à petit les journaux se sont imposés comme étant le moyen unique de diffuser, et surtout de VALIDER la recherche.

Puis internet est arrivé ! Grosse révolution !!! Mais pas pour les éditeurs… Le journaux sont passés au format électronique au lieu du format papier. Les sites des éditeurs sont assez archaïques et austères, et n’intègrent aucun contenu dynamique : ils servent juste à stocker des PDF pour les instituts qui y adhèrent, et à diffuser des résumés avec des grilles tarifaires pour les autres.

JoVE : des articles payants réservés aux abonnés… Vraiment ?

JoVE est un acronyme qui signifie Journal of Visualized Experiments. Il s’agit d’un journal qui propose un contenu différent puisque chaque article est accompagné d’une vidéo qui permet de visualiser le contexte de l’étudude, le protocole, les résultats, etc. Quand j’ai vu ça la première fois, je me suis dit que c’était cool : enfin un journal qui tire partie des capacité d’Internet plutôt que de balancer froidement des PDF… Oui, mais à y regarder de plus près, il y a comme un léger souci…

All-Up-Ins-Internets

D’habitude en Science, il y a deux types de modèles économiques pour les journaux :

  • ceux qui publient les chercheurs gratuitement, mais seuls les abonnés peuvent voir le contenu (modèle encore très-très-très majoritaire);
  • ceux qui sont en Open Access : les auteurs paient le journal pour être publiés et leurs articles sont du coup accessibles gratuitement pour tout le monde.

Certains journaux ne proposent que de l’Open Access, d’autres que du “pas Open Access” et d’autres journaux sont mixtes. JoVE lui est mixte. MAIS ! Comme JoVE propose de la vidéo, ça coûte des sous ! Donc même pour publier en non-Open Access, les auteurs devront mettre la main à la poche. Alors voici leur modèle économique :

  • Articles réservés aux abonnés (80% du journal)  : 2 400$
  • Article Open Access : 4200$… soit 1800$ de différence pour l’Open Access ce qui reste dans une certaine moyenne, mais on en reparlera plus tard…

Dans le cas d’un article qui n’est pas en Open Access, les non-abonnés ne peuvent voir que 20 secondes de la vidéo et une partie seulement du contenu.

PROBLÈME : quand on regarde les sources d’un article payant, on se rend compte que tout le contenu de l’article est en clair dans les sources et maquillé ensuite à l’utilisateur non-abonné par une classe CSS, c’est-à-dire une simple feuille de style qui va cacher le texte… Chaud !

What a JoKE!

Je me suis donc mis à regarder tout ça de plus près, j’ai rapidement identifié classe CSS en question et j’ai même découvert en 5 minutes un moyen d’accèder à leurs vidéos complètes en comparant les URL utilisées entre un article payant et un article Open Access. Entendons-nous bien, on ne parle pas d’intrusion dans les serveurs ou quoi que ce soit, juste casser une classe CSS et inverser l’identifiant dans l’URL d’une vidéo gratuite avec l’identifiant d’une vidéo payante.

JoVE_code_souce

Pour le côté impressionnant, j’ai bricolé une extension Chrome qui, pour chaque article, pétait tout ça, j’ai fait une vidéo qui montre l’”exploit” de l’extension Chrome ainsi que les explications de comment j’en suis arrivé là, puis je les ai contacté… Un des responsable m’a dit qu’il avait pris en considération mon constat, mais là où c’est très drôle, c’est qu’il a déclaré qu’arrêter de balancer le contenu payant caché derrière du CSS “allait réduire leur score SEO”…

Quand il m’a dit ça j’ai été surpris, limité choqué ! Pour moi ça sentait clairement l’arnaque, mais je ne suis pas un spécialiste SEO, donc comment qualifier ce genre de technique ? Je me suis tourné vers Gatien, qui est aussi auteur sur ce blog et dont le SEO est la spécialité, pour qu’il m’éclaire de ses lumières sur certains points techniques. C’est lui qui a donc contribué à l’écriture de ce billet en rédigeant la partie SEO qui suit.

Duper Google : l’idée du siècle?

Afficher à l’internaute une version différente de celle que vont rencontrer les robots (ou “crawlers”) des moteurs de recherche, ça s’appelle du cloaking et c’est moche. Le but est de servir à Google une version spécialement optimisée pour son algorithme : davantage de textes et de liens, absences de formulaires au-dessus de la ligne de flottaison, etc. bref tout ce dont raffolent les moteurs de recherche. On pourra prendre l’exemple du texte blanc sur fond blanc, invisible pour l’internaute mais pris en compte par les robots, alias le niveau 0 du cloaking (mais qui eût fonctionné jadis !).

Le problème est que le cloaking est considéré comme une technique dite “Black Hat” dans le langage SEO et qu’il est proscrit par à peu près 100% des moteurs qui condamnent toute pratique de dissimulation. Pourquoi ? Parce que le but de tout moteur et de faire remonter à l’internaute le contenu le plus pertinent possible, pas de l’amener sur une version différente ou tronquée et donc déceptive.

Encore faut-il savoir le faire…

Pour faire du cloaking efficace, il faut savoir repérer les moteurs de recherche de façon infaillible pour éviter de se faire prendre. On les repère généralement à l’aide des adresses IP et du User-Agent (= identifiant) qu’ils déclarent lorsqu’ils viennent visiter un site.
Rien de tout cela pour JoVE qui applique une forme très basique de cloaking proche du texte en blanc sur blanc via une simple astuce CSS. Certains diront que c’est maladroit voire touchant de naïveté de leur part. C’est peut-être ce niveau de complexité ridicule qui les a justement épargnés jusqu’à présent. Je dis jusqu’à présent car ils pourraient bientôt être amenés à s’en repentir…

Genius

Attention au retour de bâton

Les contrevenants s’exposent en effet à une pénalité s’ils se font prendre la main dans le sac ou si une bonne âme vient à les signaler. La chute de trafic qui en résulte est d’autant plus dure à encaisser qu’il est souvent compliqué de sortir d’une pénalité. Outre cette épée de Damoclès, les moteurs disposent d’outils pour mesurer le degré “satisfaction / déception” de l’internaute avec des métriques qui correspondent. Taux de clic, taux de retour à la page de résultats, etc. leur permettent ainsi d’ajuster leur classement de façon continue. De vrais êtres humains, faits de chair et d’os et appelés les quality raters sont même employés pour évaluer la qualité des sites web et des résultats de recherche des moteurs selon un cahier des charges très précis : ils peuvent influer sur le classement et signaler des sites ayant échappé à la vigilance de l’algorithme.

Les sites comme JoVE qui veulent le beurre et l’argent du beurre marchent donc sur une fine péllicule de glace recouvrant une belle fosse à purin. Heureusement pour eux les moteurs (même Google) sont parfois étonnament mauvais pour repérer les fraudeurs et le sanctioner, d’autant que les journaux scientifiques jouissent d’une popularité et surtout d’une autorité leur permettant de mieux passer entre les mailles du filet (un peu comme un Ministre de Budget qui détiendrait un compte caché en Suisse).

Oui mais voilà pour combien de temps ?

Brown_hatBrown Hat, le chapeau pour ceux qui ne sont même pas capables de faire du Black Hat

Pourquoi JoVE est de toute façons un journal en mousse

En-dehors de ces petits arrangements avec les standards du SEO expliqués par Gatien, JoVE est un journal assez marginal. Pourquoi ? Parce qu’en science, pour savoir si un journal à la cote ou pas, on utilise un indice appelé l’impact factor (IF). C’est un indice qui en gros marche de la façon suivante : plus les articles d’un journal sont cités par d’autres journaux, plus le journal voit sa cote grimper. Cet indice est calculé tous les deux ans par et publié dans le Thomson Reuters Journal Citation Reports. Le top du top pour les biologistes (le public que JoVE vise) c’est le journal Nature, qui plafonne à 38.597 d’IF, c’est ÉNORME ! En général en biologie, en fonction du domaine, la moyenne se situe autour de 3 d’IF pour ce qui est écologie, et monte autour de 6-7 d’IF de moyenne pour ce qui est biologie cellulaire / moléculaire / génétique. Quand on est un jeune chercheur et qu’on a la chance de publié dans un truc dans les 10 d’impact factor, c’est la classe !

Eh bien JoVE, eux, ils existent depuis 8 ans, mais ils ne sont toujours pas référencés et n’ont pas d’impact factor officiel. Je précise officiel parce qu’ils ont en fait décidé de calculer leur propre indice ! Ça je ne l’avais jamais vu ! Donc ils disent avoir un indice de 1.19… pour rester poli et éviter de trop troller, on va dire que 1.19 c’est mieux que 1.18… Donc potentiellement quand un chercheur publie chez JoVE les chances que son article soit lu et cité par d’autres sont assez faibles… Alors quand on remet en perspective le fait que les coûts de publication augmentent de 1800$ pour l’Open Access, cela devient finalement assez cher pour un journal de ce calibre. À titre de comparaison, les coûts pour PLoS ONE sont de 1350$ pour un journal à 3.73 d’IF et PLoS Biology est à 2900$ pour un IF de 12.69.

Enfin, une autre chose inédite pour moi après l’impact factor non-officiel, JoVE propose des articles sponsorisés ! Oui-oui, comme sur un blog… Bien sûr, ceux-ci sont libres d’accès même pour les non-abonnés ! Bon d’accord, c’est précisé avec un petit logo sur le côté et il y a un message au début de la vidéo, mais quand même, c’est un mélange de genres assez tordu. D’autant que les articles sponsorisés ne sont pas de simple pages de pubs mais présentés comme de vraies études scientifiques avec une structure dite “IMReD” (Introduction, Matériel et méthodes, Résultats et Discussion) comme de vrais articles scientifiques.

Donc si on cumule tout ça, JoVE est vraiment tout sauf un journal scientifique rigoureux…

JoVE, une simple illustration de la position abusive des éditeurs ?

Même si tous les éditeurs n’essaient pas de truander comme JoVE peut le faire, les éditeurs jouissent d’une position de dominance dans la diffusion de la recherche. Ce qui est intéressant pour les non-initiés à la publication scientifique ou la recherche en général, c’est de comprendre les excès auxquels les journaux sont coutumiers et aussi de savoir comment on a pu en arriver à de telles situations avec des éditeurs qui se croient tout permis.

Un fonctionnement archaïque

Depuis l’invention des Internets, le format papier a été abandonné pour un format électronique en PDF, ce qui a permis de baisser considérablement les coûts côté éditeur (plus de frais de tirages / envois) et cela a permis aussi de faciliter la recherche bibliographique pour les chercheurs (plus de dizaines de pages de tables des matières à lire pour retrouver un article). Pour autant, les coûts d’abonnement n’ont pas baissé… pire ! Ils ont carrément augmenté, et plus vite que l’inflation !

evolution_prix

Enfin, ce qu’il faut savoir, c’est que quand un auteur soumet un article, celui-ci est relu par des reviewers (d’autres chercheurs) anonymes et BÉNÉVOLES qui analysent l’étude et donne leur avis à l’éditeur. Une fois que l’article est accepté, l’auteur cède ses droits au journal, qui va revendre cet article sans jamais rétribuer un centime aux auteurs… Le système est assez bien ficelé et reste tel quel par tradition, mais s’il devait être mis en place de nos jours, pas sûr que les journaux puissent autant s’engraisser sur le dos des chercheurs.

naturevsscience

Publish or perish

Avec Internet, on pourrait penser que les chercheurs auraient trouvé un moyen de diffuser leur recherche directement à la communauté, sans passer par un éditeur. Mais les journaux ont pu conserver leur statut grâce à deux facteurs :

  • la recherche académique est vieillissante et peu tournée vers le changement et les nouvelles technologies.
  • depuis 20 ans, une stratégie de “publish or perish” s’est petit-à-petit mise en place : la publication dans un journal scientifique reste le seul moyen valable reconnu pour valider une étude, et ne pas publier, c’est la mort du chercheur !

publish-or-perish

En effet, de nos jours, si l’on a pas été publié on peut très difficilement soutenir sa thèse et donc valider son doctorat. Si l’on a pas 3 ou 4 articles dans le CV on ne peut quasiment pas décrocher de postdoc. Si malgré tout ça, on parvient à décrocher l’un des très rares postes de chercheur qui s’ouvrent, on n’est pas à l’abri pour autant. Il faut savoir que si les labos payent le salaire des chercheurs, il ne financent pas leurs études. C’est aux chercheurs de se débrouiller pour trouver le budget pour financer TOUT le matériel nécessaire à leurs travaux. Donc il faut démarcher des financeurs comme les régions, l’Agence Nationale de la Recherche, l’Europe, etc. Ces derniers acceptent de financer à conditions que les résultats soient publiés dans des journaux et qu’ils soient mentionnés dedans pour ensuite se la péter de leur côté en disant “regarder comme on est cool, on finance la recherche, et c’est grâce à nous que telle étude sexy a pu être faite”.

Donc, si l’on ne publie pas régulièrement les financeurs ne donneront plus de sous… Et moins de budget signifie moins de petite main d’oeuvre précaire à payer (stagiaire / ingénieur assistant / doctorant / postdoc), moins de matériel, donc du coup moins d’études possibles et donc encore moins de publications. C’est un cercle vicieux qui mène INÉVITABLEMENT à la perte du statut de dominant au sein du laboratoire, au déménagement dans un bureau plus petit (voire pire le partage du bureau avec un autre tricart), s’en suit fatalement une détestation de soi, une baisse de libido, le divorce, la perte de la garde des enfants, la misère sexuelle, l’alcoolisme, la prise excessive de drogues, les dettes de jeux pour payer sa came, la prostitution pour payer les dettes de jeux des dettes de drogue… Bref, c’est la merde !

thebitterend

Tremblez, éditeurs ! La rumeur gronde !

De plus en plus, les chercheurs dénoncent le racket organisé des éditeurs. Ce système est déjà difficile à défendre moralement parlant, mais quand en plus les budgets recherche fondent, le surcoût des abonnements n’est plus soutenable.Il faut bien comprendre que la plupart des articles ne tombent JAMAIS dans le domaine publique et par exemple un article de 1902 peut toujours être payant… et devoir payer 20$ pour accèder à ce même article vieux de 112 ans JUSTE POUR UNE JOURNÉE, c’est un peu… abusé, non ?

De plus, certains éditeurs ont été pris la main dans le sac en se mettant d’accord pour se citer mutuellement pour booster leur impact factor… De vrais gamins… Mais bon, en même temps on retrouve ça du côté des chercheurs qui vont avoir tendance à citer leurs copains ou leurs propres articles pour faire genre “mes articles sont cités”.

Mais le problème vient aussi des reviewers, qui de manière anonyme décident de la publication ou non d’un article. Il existe des situations ou en fait les reviewers ont attendu plusieurs mois avant de refuser un article, juste pour avoir le temps de le plagier et le soumettre ailleurs. À l’inverse, des plagiats d’articles dont les originaux sont pourtant déjà publiés bien avant ne sont que tardivement détectés. Ce système de peer-review trouve donc très vite ses limites. D’autant que récemment, il y a eu un retrait massif de 120 articles préalablement acceptés en conférences / journaux qui étaient en fait écrits par un générateur de texte, et personne n’avait rien vu !

academia-vs-anywhere-else

Ce qui se passe avec les journaux n’est qu’un exemple du ras-le-bol général des chercheurs envers les éditeurs. On retrouve une situation similaire avec les livres de Science, où les éditeurs (souvent les même groupes que pour les journaux) se gavent : alors que leurs coûts ont baissé en passant du papier à l’ebook, ils ont continué à augmenter leurs marges tout en réduisant celles des auteurs. Ces livres restent hors de prix pour les étudiants, et ne rapportent quasiment rien pour ceux qui ont passé parfois des années à les écrire… et devinez où va l’argent ?

Donc au final, les pratiques des éditeurs sont déjà assez douteuses. Mais quand JoVE fait payer ses abonnés juste pour désactiver une classe CSS, on arrive à un point de cynisme assez poussé et à un grand manque de respect pour la communauté scientifique. Au vu du contenu éditorial, le public que JoVE vise correspond surtout aux biologistes / biochimistes. Donc c’était quoi leur démarche ? De se dire “de toute façon, ce sont des brêles en informatique, ils sont trop cons pour voir que tout est dans les sources ?”… Hmmm…

Il faut que les éditeurs se méfient parce qu’avec le climat actuel de la recherche, entre le manque de budget, la prise de conscience de la position abusive des journaux et celle des possibilité des Internets, leur statut risque de ne pas tenir longtemps. Les chercheurs réfléchissent de plus en plus à d’autres alternatives, comme le format full Open Access avec PLoS (Public Library of Science) ou le modèle économique est totalement différent avec des articles accessibles 100% gratuitement pour tout le monde et seuls les auteurs paient pour chaque article publié. Il existe aussi un nouveau format émergent qui court-cirtute complètement les éditeurs : en effet, arXiv.org permet initialement de stocker les version “pre-print” des articles (non soumises au copyright) mais laisse aussi les auteurs publier directement leurs articles sur le site et permet à la communauté de suggérer des modifications, etc. Malheureusement ce site est surtout centré maths / physique pour le moment. Bien que BioRXiv.org existe (un site basé sur le même modèle mais pour la biologie), le catalogue proposé par ce dernier est bien plus faible.

En conclusion, les éditeurs font croire depuis des années aux chercheurs qu’ils leurs sont indispensables pour publier, mais en fait ce sont eux qui ont besoin des chercheurs pour exister…

BONUS POUR CEUX QUI SONT ALLÉS JUSQU’AU BOUT : Bon, j’ai déjà fini la rédaction du billet mais je suis tombé sur la vidéo ci-dessous qui résume tout bien et qui dit tout comme moi ^^… Donc pour ceux qui souhaitent en savoir plus sur l’historique des journaux, leurs pratiques et l’Open Access, regardez cette magnifique vidéo illustrée par Jorge Charm, l’auteur des PhDComics (la bible de tout bon doctorant en sciences).

Par

Dr en sciences comportementales, data-nerd de formation et « geek » par passion, j’ai trouvé la lumière en me tournant vers le web analytics. Je partage mes trouvailles sur @SamuelPEAN.