Vous êtes ici : Accueil > Formation des élèves > Former au numérique > Web > Une année avec Google (suite)

Documents joints

Publié : 3 juin 2008
Format PDF Enregistrer au format PDF
Dernière modification : 19 janvier 2010

Une année avec Google (suite)

Peut-on enseigner Google ?

Quelles notions info-documentaires envisager ?

Dans un premier temps il me fallait répertorier les caractéristiques de l’objet d’étude, construire le concept « Google » et ses attributs.

Une définition

Partons de la définition de « moteur de recherche » que propose Pascal Duplessis et Ivana Ballarini-Santonocito dans leur Petit dictionnaire des concepts info-documentaires. Disponible sur le site de Savoirs Cdi.

« Serveur spécialisé permettant l’accès sur le Web à des ressources, à partir de requêtes constituées de mots-clés ou de texte libre et selon différents paramètres.
Ce type d’outil de recherche en ligne explore automatiquement et périodiquement les pages web (et non les sites) et les copie sur des serveurs dédiés. A partir de ceux-ci, des logiciels, appelés spiders ou crawlers, procèdent à une indexation sur tous les mots de la page. Ils constituent ainsi un index qui contient des liens vers les pages web répertoriées.

(...)
Suite à la requête d’un utilisateur, un logiciel crée alors une page de résultats constituée de la recension de toutes les pages web répondant aux critères de cette requête. Chaque résultat présente le lien vers la page sélectionnée et l’assortit d’extraits situant les mots-clés de la requête dans le contexte de la page ciblée. A ce stade, les moteurs réagissent à nouveau de manières différentes, à partir notamment de la stratégie de présentation des résultats que proposent leurs concepteurs.

(...)
Cet ordre d’apparition sur la page de résultats se révèle crucial pour certaines entreprises et secteurs influents (économie, politique, idéologie) et provoque des stratégies de placement plus ou moins répréhensibles (Voir Positionnement payant).
Une typologie sommaire des moteurs d’ordonnancement des résultats fait apparaître deux principaux modes de présentation, l’un opérant au moyen d’un indice de popularité, le second par catégorisation des résultats. »

À partir de cette définition je suggère d’établir une liste de notions qui constitueront le noyau de notre projet d’apprentissage. Je propose une segmentation inspirée des trois étapes du traitement de la requête : la collecte de pages, l’indexation, le référencement/positionnement. Ce découpage correspond d’ailleurs aux étapes répertoriées par Marie-Laure Malingre et Alexandre Serres. La collecte des données et la constitution des index sur le site de l’Urfist de Rennes.

On lira également avec grand profit la description d’un stage récent de l’Urfist de Rennes (28 avril 2008), animé par Alexandre Serres et Marie-Laure Malingre, intitulé : « Moteurs de recherche : sortir de Google ». Le support du stage (en .ppt) est très complet.

A partir de cet examen préliminaire j’en déduis que les notions à aborder peuvent se décliner en : page web, serveur de données, formulaire de recherche, mots-clés, chaînes de caractères, recherche en texte intégral, « spider » (robot de collecte), robot d’indexation, calcul de densité, indice de popularité, classement des résultats, positionnement automatique, positionnement payant, économie des moteurs de recherche.

Le dispositif pédagogique

Il restait à imaginer un dispositif capable d’intégrer toutes ces dimensions tout en éveillant la curiosité des élèves (et exercer leur sens critique).
Je m’orientais vers une séquence de deux heures en classe de seconde (demi-classe) et commençais l’expérimentation dés le début de l’année.

Les premières séances présentaient le modèle suivant : une progression partant d’un questionnement guidé (« maïeutique ») fait de constats et d’hypothèses destinés à progresser dans la compréhension de l’outil.

Déroulement de la première séance

- 1.simulation
d’une recherche type sans autre consigne que : ex. Trouver sur le
Web un document susceptible de répondre en tout ou partie à
la question : Quelles sont les causes de la pollution
atmosphérique ?

- 2.faire
constater une unanimité quant à l’outil utilisé
(remarque dans la salle informatique du Cdi, Google n’est pas en
page d’accueil, aucun raccourci pointant vers cette ressource
n’est visible) ;

- 3.lister les
arguments invoqués par les élèves pour
justifier leur choix de l’outil : plus riche, plus facile, plus
complet, plus connu, plus visible, etc. En fait il est aisé
de leur démontrer que d’autres moteurs sont tout aussi
riches ou simple d’utilisation que Google (ex. Yahoo search,
exalead, windows live, etc.). Seul demeure l’argument de la
visibilité et de la notoriété de l’outil ;

- 4.faire
constater des usages différents du formulaire à
partir des requêtes des élèves. Des
différences apparaissent : présence ou non
d’articles, accentuation, segmentation, nominalisation ;

- 5.la question à
se poser est donc que fait Google de nos requêtes ? Première
hypothèse (première représentation-obstacle)
 : Google comprend-il notre langage articulé ? Ou plus
simplement quelqu’un est-il présent derrière le
formulaire ?

- 6.une diapo
présente alors un bêtisier des requêtes de
Google pour faire rire les élèves sur nous-mêmes
et nos naïvetés ;

- 7.la saisie de
requêtes fantaisistes (paul u scions, 123456789, abcdefghij,
123+123, etc.) permet de prouver que le moteur ne travaille pas
sur des mots mais sur des chaînes de caractères ;

- 8.à
l’aide d’un diaporama le schéma fonctionnel de Google se
dessine : le formulaire déclenche l’exploration d’une base
de données stockées sur des serveurs (pour Google
environ un million de machines !). Le contenu des ces serveurs
(probablement plus de vingt milliards de pages) est le résultat
provisoire d’une collecte réalisée sur d’autres
serveurs du Web par des programmes informatiques (« spiders
 »=robots de collecte, Googlebot dans notre cas) qui
utilisent les liens hypertextes des pages Web pour évoluer
sur la toile mondiale et enregistrer des copies des pages
trouvées. Les pages stockées font l’objet d’un
traitement informatique complexe qui les « découpe »
en chaînes de caractères afin de constituer un index
(liste de « mots » associée à leur
origine ou localisation sur le Web= URL).

- 9.les élèves
complètent alors un schéma du processus présentant
des étiquettes vierges de termes.

- 10.Pour finir,
quelques requêtes comparées permettent de tenter de
comprendre le travail à partir du formulaire : requête
avec ou sans accent, avec ou sans guillemet, avec ou sans +, avec
ou sans mot (chaîne) répété, etc.

Déroulement de la deuxième séance

- 1.le
questionnement est lancée à partir de la lecture
d’une page de résultats de Google et d’une page ayant subie
une coloration après une étude de suivi et d’analyse
du mouvement des yeux (eye-tracking). Les couleurs révèlent
le triangle d’or et quelques fixations sur la colonne de droite.
Donc le positionnement-classement est primordial pour qui veut
être lu sur le Web. Quels sont les critères de
classement actifs derrière cette liste ? Et que signifie « 
liens commerciaux » ?

- 2.évocation
des modes de financement de Google (achat de mots clés,
coût par clic, etc.)

- 3.examen de la
partie non-commerciale de la page de résultats à
partir d’une proposition d’enquête : comment expliquer
l’injustice qui consiste à figurer en quatrième
position ? (premier rang à perdre des lecteurs) ;

- 4.examen des
quatre pages et formulation d’hypothèses de classement par
les élèves.

- 5.les
hypothèses qui sont avancées sont fréquemment
 : calcul du nombre de visites (les élèves pensent
déjà Web 2.0 ?), comptabilisation du nombre de « 
mots clés » (chaînes de caractères) ;

- 6.un rapide
exercice consiste à compter le nombre d’occurrences d’un mot
dans une page avec la combinaison de touches Ctrl+F (recherche de
chaînes). Quatre ou cinq groupes se chargent chacun d’une
page à explorer. La comparaison des résultats permet
de conclure que ce critère ne suffit pas à expliquer
toutes les positions ;

- 7. j’attire
l’attention des élèves sur la différence de
poids d’un mot selon son emplacement dans la page (bandeau,
entête, titre, sous-titre, intertitre, liens hypertexte,
etc.) ;

- 8. pour montrer
que ce critère ne peut pas être le seul critère
je montre aux élèves une page réalisée
par mes soins, vide de contenu mais riche de termes identiques,
j’explique cette dérive du positionnement artificiel ;

- 9. pour éviter
une telle manipulation il faut trouver un procédé
mécanique pour identifier les pages artificielles : ce
seront les pages qui ne sont jamais citées (ne font l’objet
d’aucun lien) ;

- 10.le second
critère examiné sera donc celui de la popularité
à travers la recherche de liens entrant grâce à
l’opérateur « link : » de Google qui affiche les
pages ayant actualisé un lien vers une page cible ;

- 11.pour montrer
que ce critère peut être détourné je
montre une page artificielle qui ne présente que des liens
vers la même page cible pour conclure que les pages qui
citent doivent également faire l’objet de citations pour
être validées et augmenter le PageRank (note de
positionnement) ;

- 12.je mentionne
un critère important, celui de la fréquence de mise
à jour des pages afin d’insister sur le fait que Google
privilégie les pages actives ;

- 13.la question
ultime porte sur la nature d’une recherche de type sérieuse
(scolaire) : est-on exclusivement à la recherche de pages
populaires ? Les élèves concluent souvent
d’eux-mêmes que notre démarche vise plutôt la
pertinence. Nous concluons qu’il faut laisser leurs chances aux
pages mal classées.

- 14.la lecture
de l’extrait d’un texte critique met en garde les élèves
contre la tendance du moteur à favoriser les sites
historiques au détriment de pages présentant une
pensée originale ou iconoclaste (nécessairement peu
populaire).

Un bilan et des variantes

A l’issue des premières expériences menées avec ce dispositif je décidais de conserver l’entrée en matière c’est-à-dire de faire constater un usage généralisé non-questionné et de démontrer que le choix de l’outil n’est pas déterminé par un jugement portant sur la qualité réelle du moteur mais plutôt sur sa visibilité dans le monde informatique mais également dans le petit monde de l’école.

Démontrer pour convaincre

Je suis de plus en plus convaincu qu’il peut être bénéfique de démontrer aux élèves que leurs pratiques (que nos pratiques ?) sont souvent parcellaires et stéréotypées. D’ailleurs j’ai pu constater que les élèves très actifs en début de séance limitent par la suite le nombre de leurs interventions pour se concentrer sur la compréhension de l’outil. Il faut se garder toutefois de trop insister sur cet état de méconnaissance. Il m’arrive fréquemment de le questionner avec les élèves : comment expliquer que nous ne connaissions pas un outil aussi usuel ? Comment interpréter notre confiance aveugle ?

Pour la partie technique je suggère de montrer des photographies de « Data center » et de serveurs pour que la prise de conscience de la dimension physique du fonctionnement contribue à dissiper la magie de l’outil. De même une visite virtuelle du « Googleplex » fait entrer de plain-pied l’élève dans la dimension économique de la firme.

J’ai personnellement pris pour appui un diaporama destiné à gagner un temps précieux lors de la réalisation de schémas commentés ou de la présentation de données chiffrées. Il me semble que pour ce type de séance dialoguée ce support ne saurait être utilisé de manière exclusivement chronologique. Je n’ai jamais suivi le déroulement des écrans sans rompre la succession initiale pour m’adapter aux rythmes et aux évolutions des séances.

D’autres lancements

Partir de l’énigme posée par la position hégémonique de Google est une entrée en matière qui alerte les élèves et focalise leur attention.

La réflexion (et l’intérêt) peut prendre appui sur la lecture d’articles qui évoquent les mésaventures de Google en Chine : on se souvient que les autorités chinoises ont exercé des pressions pour que le moteur fasse disparaître certaines informations de ses pages de résultats (ex. la répression des mouvements étudiants de juin 1989, place Tian’anmen). Il est alors avéré (aux yeux des élèves) que la source des sources n’est pas aussi impartiale qu’il y paraît. En tout cas l’examen qui leur est proposé par la suite est justifié.

Une bonne écoute

Globalement les élèves ont accueilli très positivement ces séances. Le choix d’un questionnement qui part de nos pratiques réelles semble assez efficace. Il aura fallu insister à plusieurs reprises sur la dimension artisanale de nos recherches sur le Web pour que le dialogue se déroule dans un climat de confiance : il n’est pas question de stigmatiser de « mauvais usages » mais d’installer les éléments susceptibles d’entrevoir les possibilités et les limites de l’outil (une culture de l’information ?). En effet on peut difficilement continuer à dire aujourd’hui que Google ne permet pas de requêtes en langage naturel ou qu’il soit naïf de poser des questions au formulaire (ce qui reviendrait à exclure arbitrairement le référencement des fils de discussion des forums par exemple). Par ailleurs il semblerait que les mots interrogatifs ne soient plus comptés au nombre des « stop-words » (pour l’instant !).

Quelques pistes...

En fin d’année j’ai fait reposer une partie de la réflexion sur l’examen des pages mises « en cache » dont le lien apparaît sur la page de résultat de Google. Non seulement les chaînes de caractères sont colorées sur les pages (ce qui permet d’observer le travail du moteur) mais le préambule de Google précise les modalités et les dates de collecte. Je conseille d’ailleurs aux élèves de consulter dorénavant ces pages pour tenter de comprendre pour quelles raisons le moteur nous les propose.

Il resterait sans doute à explorer un aspect que j’ai personnellement sous-estimé. Certains élèves utilisent le formulaire de « Google images » pour des recherches scolaires qui ne le réclament pas a priori. Ces élèves exploitent le confort visuel conféré par les vignettes des résultats pour contourner la lecture plus ardue des pages de résultats standards. Il reste à imaginer d’autres séances à ajouter aux séances qui précèdent pour dévoiler les limites (et les bonheurs) de ces types de requêtes.

Un prolongement intéressant consisterait à présenter d’autres moteurs qui exploitent d’autres critères de sélection ou de présentation : Exalead et sa catégorisation a posteriori, Kvisu et la visualisation graphique des résultats (moins hiérarchique que la liste), le moteur du logiciel documentaire et l’indexation sur descripteurs (langage naturel versus langage documentaire), etc.

Répondre à cet article

5 Messages

  • Une année avec Google (suite)

    Juin 2008, par richard peirano

    excellent, je prends.

    Juste une pichenette de critique sur le eyetracking que je n’ai par ailleurs pas creusé non plus. Il semblerait que le triangle d’or ne soit plus vrai, notamment avec l’ajout sur la page de résultat de vignette. http://webilus.com/screenshot/le-triangle-dor-de-google-evolue

    Bon je vole la séquence pour l’année prochaine, ça m’évitera d’avoir à refaire le monde.

    Sur vos conseils, j’ai aussi travaillé sur google pour une formation aux enseignants qui recoupe votre travail.

    J’ai une bibliographie et l’explication du dispositif. Il me reste à publier l’animation et le contenu de la séquence

    Répondre à ce message

    • Une année avec Google (suite)

      Juin 2008, par Frédéric Rabat

      Merci pour le commentaire et le vol de la séquence.

      Pour la question du triangle d’or : je suis d’accord sur la question de son évolution, ce qui rend caduque l’étude de la société Enquiro (en 2005 je crois). Cependant je conserverai encore un peu cette page colorée parce que je constate qu’elle correspond aux habitudes de nombreux élèves et illustre l’empressement contre lequel je m’oppose.

      Répondre à ce message

    • Une année avec Google (suite)

      Janvier 2010, par Eon Catherine

      Tout cela me semble excellent et j’ai bien l’intention de creuser...et même de voler moi aussi...
      Cependant j’admire votre niveau de compétences, par exemple je ne comprend rien à votre premier paragraphe : eyetracking, ..
      je suis très intéressée par votre séquence à l’intention des professeurs : comment avez-vous fait ?
      Merci

      Répondre à ce message

  • Une année avec Google (suite)

    Juin 2008, par jérôme SACARD

    Bravo pour votre article très intéressant...
    Quelques remarques d’utilisation dans le cadre scolaire :

    Chez nous, la recherche se fait avec firefox et customize google.
    “CustomizeGoogle est une extension pour Firefox qui permet améliorer les résultats de recherche de Google en ajoutant des informations supplémentaires (comme des liens vers Yahoo, MSN, Voila...) et en supprimant les informations non-demandées (comme les pubs et le spam). Toutes les fonctions sont désactivables.”

    Cela ne change pas l’ordre des résultats, mais supprime les pubs et propose l’utilisation d’autres moteurs de recherche.

    Voir en ligne : collège Pasteur .. ::Saint Rémy ::..

    Répondre à ce message

  • Une année avec Google (suite)

    Novembre 2010, par Bénédicte Herrgott

    Bonjour Frédéric, je me replonge dans cette séquence après être "tombée" sur la fiche didactique de données sur Google élaborée par P. Duplessis.
    (http://esmeree.fr/lestroiscouronnes/idoc/outils/fiche-de-donnees-didactiques-sur-google)
    Nous avons eu la chance de le recevoir par deux fois en Corse et I. Ballarini est venu également animer un stage, l’année dernière à Bastia.
    J’espérais que vous feriez un film de ta deuxième séance, mais la deuxième vidéo est la même que la première.
    Nous attendons la suite avec impatience !
    Amitiés
    BH

    Répondre à ce message