Chose promise, chose due: ce mois-ci je vous dirai quelques mots sur les recherches complexes sur Internet. Je ne crois en effet pas que l’on puisse prétendre tirer profit au maximum des possibilités du Web sans utiliser quelques fonctions de recherche avancée. Il y a maintenant beaucoup trop de sites et de pages Web pour se contenter de lancer des recherches ne comportant qu’un seul mot. Le nombre de sites retrouvé sera en effet trop important pour que le résultat soit vraiment utilisable. Il vous faudra bien choisir votre site de recherche, suivre quelques conseils simples dans la construction de vos requêtes, et limiter le nombre de références retrouvées par le moteur de recherche. Notez en passant que j’utilise habituellement pour ce faire la section « advanced search » sur AltaVista[i], mais que plusieurs moteurs de recherches disponibles sur le Web vous offrent des fonctions équivalentes. Il suffit de vérifier.
Encore faut-il distinguer entre les différents sites de recherche sur le Web, car tous ne fonctionnent pas de la même façon. On retrouve principalement deux types de sites de recherche, soit ceux que l'on qualifie de répertoires, de services d'annuaires ("directory services") ou parfois de "portails" (quoi que ce terme réfère à une plus large réalité) et les véritables moteurs de recherche, aussi nommés parfois "robots" ou "araignées" ("spiders"). La première catégorie regroupe des sites comme ceux de la grande famille "Yahoo"[ii], la Toile du Québec[iii] ou Francité[iv], alors que la deuxième regroupe des grands noms comme AltaVista, WebCrawler[v], HotBot[vi] ou Google[vii]. La distinction découle de la façon dont un site obtient l'information qu'il utilise pour répondre aux questions de ses visiteurs.
Les services d'annuaires sont fondamentalement un lieu où on peut retrouver les références à des sites spécialisés, classés par catégories. Je vous parlais le mois dernier de l'importance de bien "indexer" votre site pour le faire connaître. Cette opération se fera en l'inscrivant sur de tels services d'annuaire, dans une ou plusieurs catégories appropriées. On peut voir ce type de site comme l'équivalent virtuel des bottins de pages jaunes. Vos recherches pourront donc être bien ciblées. Mais vous devrez garder à l'esprit que de tels services n'offrent pas, sauf exception, de recherche exhaustive du Web. Autrement dit, si le propriétaire d'un site ne l'y a pas inscrit, vous ne le trouverez pas nécessairement dans ce type de répertoire.
Un véritable moteur de recherche c'est autre chose. Plutôt que d'attendre passivement que les sites Web lui fournissent leurs coordonnées, les moteurs de recherche recueillent et accumulent activement de l'information sur tout ce qui grouille ou grenouille sur le Web. Leurs ordinateurs parcourent systématiquement tous les sites se trouvant sur Internet pour recueillir des informations et les indexer dans leurs banques de données où elles attendent patiemment d'être cueillies. C'est de cette activité fébrile et incessante que découlent les termes "robots" ou "araignée". Ces bestioles virtuelles recueilleront cependant des informations différentes, et à des intervalles variables, selon les critères établis par leurs dresseurs. Les résultats seront donc forcément différents d'un moteur à l'autre. Pour en faire l'essai, entrez mon nom sur différents moteurs. Vous serez surpris (mais pas autant que je l'ai été) de constater qu'AltaVista me trouve sept fois, Excite deux fois, HotBot cinq, InfoSeek (go.com) une fois, Lycos vingt-deux fois, Google dix-neuf fois (en 0.2 secondes d'ailleurs...) et Deja aucune. Pourquoi? Tout simplement parce que certains moteurs ne retiennent que les informations retrouvées dans certaines parties des pages (comme le titre par exemple) alors que d'autres conservent leur texte en entier. Certains seront nécessairement plus exhaustifs que d'autres. Et si on tente le même test sur un répertoire? Yahoo, comme la Toile du Québec, ne trouvent aucun site contenant mon nom. Normal, je ne m'y suis pas inscrit. Vous voyez la différence? Pour compléter le portrait, sachez qu'il existe aussi des sites où il est possible de chercher sur plus d'un moteur à la fois, ce qui est très pratique pour les boulimiques d'information comme moi. Voyez par exemple le site de "Use-it"[viii].
J'ai tenté de vous démontrer qu'il y a plus d'une façon de trouver de l'information sur le Web. Vous aurez aussi vu que si votre moteur préféré ne trouve pas ce que vous cherchez, ce n'est pas nécessairement parce que l'information n'existe pas. Il se peut qu'il ne l'ait tout simplement pas trouvé.... Essayez quelques moteurs de recherche, et vous verrez à l'usage lequel correspond le plus à vos attentes et à vos préférences. Personnellement, j'aime beaucoup utiliser le classique AltaVista ou le très rapide Google pour mes recherches simples, et avec le service de recherche avancée d'AltaVista pour mes recherches complexes. Il est cependant bon de garder à l'esprit qu'il peut être utile de chercher à plusieurs endroits pour arriver au résultat escompté.
Je pressens cependant une question: qu'est-ce qu'une recherche complexe? Tout simplement celle qui vous permet d'utiliser plus d'un mot à la fois, reliés par des opérateurs logiques pour formuler des questions sous forme d'équations. C'est ce qu'on appelle des "expressions booléennes". (souvenez-vous de ce mot pour une prochaine partie de Scrabble!) Vous pourrez programmer l’engin de recherche pour ajouter ou retirer des mots de la question que vous lui poserez, ce qui vous permettra de préciser vos critères. Voici quelques exemples concrets.
Le mode le plus courant, et souvent le plus efficace, est de relier plusieurs mots pour former une expression. Supposons que vous vouliez obtenir des renseignements sur la loi sur la protection du consommateur. Une recherche par un seul mot de cette phrase, soit « loi » (plus de 600,000 retours) ou « consommateur » (plus de 45000) s'avérera beaucoup trop large. Le simple fait de relier tous les mots de la locution en plaçant un signe d’addition (+) entre chaque mot que vous voulez relier ou en les plaçant entre guillemets ou entre parenthèses ramènera le résultat à une échelle plus humaine, soit 403 retours.
Il faut noter aussi que vos recherches ne se font que dans une langue à la foi. Poser une question en français signifie que les pages trouvées seront dans cette langue.[ix] Vous pourriez donc avoir à mener deux recherches si vous voulez aussi trouver des pages en Anglais. Mais à l'inverse, cette situation peut aussi vous aider à diriger vos recherches vers des sites de langue française ou anglaise.
Il n'en demeure pas moins que vérifier 403 sites reste une tâche majeure. Surtout avec un modem téléphonique... Vous serez alors sûrement très content de pouvoir encore limiter votre recherche.[x] Une façon de procéder serait de réussir à ne retenir parmi les 403 sites de tout à l'heure , que ceux qui contiennent le mot "québec". Vous pourrez alors retrouver les sites qui contiennent le titre de votre loi fétiche et qui traitent de la juridiction qui vous intéresse. Votre requête se lira alors comme suit : (loi sur la protection du consommateur) AND québec. Vous remarquez qu'il ne vous reste que 205 sites à vérifier. Vous venez de récupérer un après-midi de travail, une soirée en famille, ou une nuit de sommeil...
Vous pourriez restreindre encore un peu plus votre recherche, et récupérer un autre bout de votre vie sociale en exigeant la présence d'autres expressions. Vous pouvez en effet ajouter à l’infini des critères de recherche additionnels en utilisant l’opérateur « AND ». Mais afin de faire le tour du jardin, et de justifier au passage mes honoraires de rédacteur, voyons cette fois-ci comment exclure des sites qui contiennent un terme particulier en utilisant l’opérateur AND NOT. Excluons alors du compte les sites qui contiennent le mot « automobile », afin de retirer ceux qui traitent de ce domaine commercial. Votre requête se lira dans ce cas comme suit : (loi sur la protection du consommateur) AND québec AND NOT automobile. Miracle! Le compte de sites baisse à 172.
Finalement, comme il y a plusieurs façons de désigner une même chose et que, par ailleurs, l'erreur est humaine, l'opérateur booléen NEAR est aussi très utile. Inséré entre deux mots, il vous permettra de retrouver deux mots à l’intérieur de tout groupe d’au plus 10 mots. Vous pourrez souvent débusquer par ce moyen des sites traitant d'un sujet qui vous intéresse, mais qui le nomment différemment. Par exemple, si l’auteur de la page utilise les expressions « loi protégeant le consommateur », « loi de protection du consommateur », ou encore s’il a tout bêtement fait une faute de frappe dans le nom exact de la loi, utiliser ce titre précis comme critère de recherche fera en sorte d'exclure un tel site de la liste des résultats. L’opérateur NEAR aura plus de chance de le ramener dans son filet. L'éventail initial sera bien entendu plus large. Voyons un peu: (loi NEAR consommateur) AND québec AND NOT automobile nous donne 307 sites.
Vous aurez rapidement compris qu'il faut apprendre à utiliser ces fonctions avec précision, car le risque de passer à côté de sites d'intérêt en précisant trop vos critères est très réel. Il est par ailleurs très pratique d'apprendre à maîtriser les expressions booléennes car ils sont acceptés, avec quelques variations, sur plusieurs moteurs de recherche ainsi que sur plusieurs sites maison[xi]. Vous n'avez qu'à consulter les fichier d'aide des sites en questions pour savoir si tel est le cas.
Je crois avoir couvert l'essentiel du sujet sans trop vous endormir. Du moins je l'espère! Comme dirait un de mes amis: "questions? suggestions? insultes?" Je vous rappelle mon adresse courriel: bertrand@cybernotes.info. À la prochaine !
[i] www.altavista.com
[ii] www.yahoo.com, .ca, .fr ...
[iii] http://www.toile.qc.ca/
[iv] http://www.francite.com/
[v] http://www.webcrawler.com/
[vi] www.hotbot.com
[vii] www.google.com, un de mes préférés
[viii] http://www.he.net/~kamus/useen.htm
[ix] Plusieurs sites de recherche vous offrent d'ailleurs un choix de langue.
[x] Nous utiliserons la page de recherche avancée d‘AltaVista.
[xi] par exemple Microsoft ou CanLII
Aucun commentaire:
Enregistrer un commentaire