12 méthodes pour évaluer vos services.

Les méthodes pour évaluer des services sont nombreuses. Elles répondent chacune à des objectifs et des moyens différents. Je vous propose donc une liste non exhaustive de ces méthodes avec un bref aperçu des avantages, des inconvénients et un lien pour en savoir plus sur la méthode.

Les évaluations expertes.

Les évaluations expertes ne nécessitent pas la présence d’utilisateurs. Elles se basent sur l’avis d’un ou plusieurs experts. Nielsen (1993) conseille 3 évaluateurs car c’est meilleur rapport entre le nombre de défauts trouvés et le coût. L’expérience des évaluateurs influe sur le résultat.

Evaluation heuristique.

Contexte : Les évaluateurs passent en revues l’ensemble d’un site ou d’un service en se référent à des heuristiques. les heuristiques sont des règles génériques. Exemple :

Error prevention : Even better than good error messages is a careful design which prevents a problem from occurring in the first place. Either eliminate error-prone conditions or check for them and present users with a confirmation option before they commit to the action.

Avantages : La méthode ne nécessite pas d’utilisateur. Elle peut être mise œuvre facilement et rapidement. Les évaluateurs doivent être formés à cette méthode, mais ne sont pas nécessairement des experts en ergonomie. Le coût est réduit.
Inconvénients : Il n’y a pas vraiment de liens avec l’activité réelle. L’évaluateur n’est pas un utilisateur, il peut donc passer à côté de certains défauts, par exemple en ce qui concerne la compréhension des libellés. Cette méthode à tendance à produire des faux-positifs c’est-à-dire des défauts d’ergonomie qui n’en sont pas réellement.
Références : http://www.useit.com/papers/heuristic/heuristic_evaluation.html

Inspection cognitive.

Contexte : Les évaluateurs passent en revues l’ensemble des écrans se posant quatre questions et relèvent les défauts d’ergonomie. Le but étant que l’évaluateur se mette dans la position d’un utilisateur. Les quatre questions sont les suivantes :

Les utilisateurs vont-ils tenter d’exécuter les actions appropriées ?
Les utilisateurs sauront-ils que les actions appropriées sont permises ou disponibles ?
Les utilisateurs vont-ils associer aux effets souhaités les actions appropriées ?
Lorsque les actions seront effectuées l’utilisateur pourra-t-il se rendre compte des traitements en cours ?

Avantages : La méthode ne nécessite pas d’utilisateur. Elle peut être mise œuvre facilement et rapidement. Le coût est réduit.
Inconvénients : Il n’y a pas vraiment de liens avec l’activité réelle. L’évaluateur peut se « perdre » dans le parcours du service ou du site perdant de vue le contexte d’utilisation et le niveau de l’utilisateur final.
Références : Sur Wikipédia en Anglais.

Inspection heuristique.

Contexte : L’inspection heuristique est une méthode hybride entre l’inspection heuristique et l’évaluation heuristique. Après avoir défini 4 tâches, les évaluateurs passent en revue les écrans correspondants en utilisant les 4 questions de l’inspection cognitive puis classent les défauts dans une grille, en fonction des critères heuristiques de Bastien etScapin.
Avantages : La méthode est assez directive, elle peut donc être mise en œuvre facilement sans trop s’éloigner de l’activité réelle. Il est possible de comparer deux versions d’un même service. Elle doit permettre d’éviter les problèmes de faux positifs. Le coût est réduit.
Inconvénients : Nécessité de bien connaître les critères heuristiques de Bastien et Scapin. L’évaluation n’est exhaustive de l’ensemble du service.
Références : Description de la méthode.

L’analyse de la conformité à un ensemble de recommandations.

Contexte : Cette évaluation consiste à juger la conformité des éléments de l’interface aux recommandations contenues dans divers types de recueils. Ces recueils sont par exemple :

Les guidelines des constructeurs, par exemples les GUI pour Mac OS X ou Windows
Des recueils spécifiques, par exemple : Smith et Mosier, 1986, 944 recommandations regroupées en 6 thèmes : l’entrée de données, l’affichage des données, le contrôle du dialogue, le guidage utilisateur, la transmission des données et la protection des données)
Des guides de recommandations spécifiques, par exemple le Webstyleguide.

Avantages : L’analyse est peu dépendante de l’expertise de l’évaluateur. Elle est exhaustive et précise.
Inconvénients : Le contexte d’utilisation et l’utilisateur ne sont pas pris en compte.

Les tests avec des utilisateurs.

Les tests avec les utilisateurs nécessitent la présence des utilisateurs. Ils consistent tous à faire passer par l’utilisateur un certain nombre de tâches déterminées à l’avance en fonction des usages. Pour ces tests, la passation est toujours individuelle.

DIY, Do It Yourself.

Contexte : Réaliser soi-même les tests afin d’en réduire le coût. Les tests peuvent être réalisés dans les locaux de l’entreprise avec les moyens existant (salle de réunion, ordinateur portable, etc…). Le recrutement se fait au mieux, à la cantine, chez les étudiants, les collègues. Le but est de détecter des défauts d’ergonomie à corriger et pas nécessairement tous les défauts.
Avantages : La mise en place est relativement simple et légère. Le coût est très réduit, quelques dizaines d’euros par utilisateur et éventuellement un logiciel de capture d’écrans (50 € maximum).
Inconvénients : Les utilisateurs vont avoir tendance à faire plaisir et donc à avoir un avis majoritairement favorable. Les résultats observés se limitent à l’échantillon. Ils ne sont pas généralisables.
Références : Présentation de Maurice Svay à ParisWeb.

Test utilisateur à distance.

Contexte : Les utilisateurs réalisent les tests à partir de leur ordinateur chez eux. Les parcours sont enregistrés sous la forme généralement d’une capture de l’écran et de la webcam de l’utilisateur.
Avantages : Des services notamment anglophones proposent des outils complets pour faire l’ensemble des tests. Le coût par utilisateur est relativement bas (50 €). Il varie en fonction de la spécificité du public recherché. Les résultats sont obtenus généralement rapidement (sous une semaine).
Inconvénients : Il faut avoir un service fonctionnel et accessible à partir d’internet. C’est limité aux services web. Le mode de recrutement et de rémunération des utilisateurs, pose questions et peut introduire des biais. Certains publics nesont pas accessibles par ce canal (personnes âgées, enfants, etc…).
Références : Présentation de Nate Bolt à la Cantine pour UX Paris.

Test utilisateur « classique » en laboratoire.

Contexte : Les tests utilisateurs se passent dans un environnement dédié, généralement constitué d’une « régie »séparée de la salle de test par une vitre sans teints. L’ensemble des événements sont filmés (écran, utilisateurs,… ). Ces enregistrements sont, par la suite, étudiés en détails.
Avantages : Tous types de service, sur différents supports peuvent être testés (Téléphone, tablette, TV) voir avec des interactions croisées entre les supports. La qualité des résultats obtenus.
Inconvénients : C’est relativement long à mettre en place (recrutement, préparation de l’environnement de test, dépouillement). Le rapport coût/résultat n’est pas toujours celui attendu notamment si les hypothèses initiales ont mal été posées.
Références : Le nombre d’utilisateur pour optimiser un test peut être calculé sur la base d’un pré-test.

Norme ISO 20282-3

Contexte : La norme ISO 20282-3 porte sur « la Facilité d’emploi des produits quotidiens. » , et l’évaluation de celle-ci. Elle définit une méthodologie précise pour la réalisation de tests sur des produits du quotidien. Les tâches définies pour le test, sont les fonctions principales du produit. Elles doivent être relativement simples. Cette norme définit trois variables à mesurer :

L’efficacité : réussite ou non de la tâche à effectuer (ex : retirer 20 € à distributeur de billet)
L’efficience : temps mis pour effectuer la tâche.
La satisfaction : une échelle de satisfaction de -2 à +2 en 5 niveaux.

Avantages : C’est une norme internationale. La méthodologie est précise et ne permet pas l’improvisation. La passation pour chaque utilisateur est plus courte que dans un test classique. Les résultats sont généralisables à la population cible. Les résultats peuvent être traités en partie de manière automatisée.
Inconvénients : Le nombre d’utilisateurs à faire passer est plus important, entre 20 à 50. Ils doivent strictement représentatif de la population cible. Le but de cette méthode n’est pas de trouver des défauts d’ergonomie même si c’est possible en complément.
Références : Description de la norme.

Les expérimentations

Les expérimentations se basent sur une démarche scientifique expérimentale. Cette démarche consiste à formuler des hypothèses qui sont validées ou non par un protocole de tests. Le protocole de tests compare différentes conditions en mesurant certaines variables.

Eyetracking.

Contexte : L’eyetracking consiste à suivre les déplacements oculaires de l’utilisateur sur l’écran. L’ensemble du parcours oculaire est enregistré. On peut tirer, de ces enregistrements, différentes données notamment une représentation graphique avec les zones les plus regardées et le parcours « moyen » du regard. L’eyetracking nécessite du matériel spécifique (et donc relativement coûteux) pour suivre le regard. Attention, ce sont les déplacements oculaires que l’on enregistre et non l’activité du cerveau ! On peut regarder, sans voir, voir sans comprendre, comprendre sans en tenir compte. C’est une technique adaptée pour réaliser des expérimentations et non des tests utilisateurs.
Avantages : On obtient des données précises sur le parcours oculaire de l’utilisateur. Cela a, par exemple, permis d’observer que les utilisateurs évitaient les zones présentant des publicités. Dans des conditions expérimentales précises, il est possible d’obtenir des réponses précises et valides à certaines hypothèses complexes.
Inconvénients : L’eyetracking est souvent utilisé à mauvais escient, par exemple, pour trouver des défauts d’ergonomie alors que cette technique ne convient pas pour cela. Le coût est important, notamment s’il faut faire passer un nombre important d’utilisateurs.
Références : L’eyetracking sur Wikipedia

A/B testing et tests multivariés

Contexte : Généralement utilisée sur les sites d’e-commerce, cette technique, issue du marketing, consiste à mettre en ligne plusieurs versions du site en même temps en faisant varier certains éléments des pages, comme le libellé, la taille et la couleur d’un bouton, l’organisation d’une fiche produit, etc… On mesure alors certaines variables comme le taux de transformation, le panier moyen, etc…
Avantages : La situation est réelle et non une situation de laboratoire. Les résultats obtenus sont facilement généralisables à la population cible (nombre important d’utilisateur et public réel), voir c’est la population cible qui est testée.
Inconvénients : Nécessite des modifications techniques sur le site en production afin de générer les différentes pages et le suivi. Les variations devraient se faire « toutes choses égales par ailleurs ». Il faut faire varier les bons facteurs et donc faire des hypothèses en amont.
Références : l’A/B testing sur Wikipédia

Expérimentations scientifiques

Contexte : On entend par expérimentations scientifiques tous les protocoles de tests qui ont pour but de valider ou non des hypothèses. La forme de ces expérimentations peut être très variable suivant les cas, mais le but est de répondre à une question précise. Pour cela, on fixe l’environnement, on compare différents dispositifs et on mesure différentes variables.
Avantages : La validité des réponses obtenues.
Inconvénients : La mise en place nécessite une métrologie précise et donc une expertise certaine. Le coût est assez élevé car l’ensemble du processus est relativement long.
Références : Un exemple d’expérimentation sur la saisie de texte sur la télévision.

Les questionnaires

Les questionnaires sont des méthodes peu utilisées en ergonomie car c’est la perception de l’utilisateur qui recueilli.

SUS System Usability Scale

Contexte : Le SUS est un questionnaire qui à fait ses preuves depuis 1986. Initialement c’est une échelle « Quick andDirty » à faire passer après un test utilisateur. Il peut être utilisé pour tous types de services. L’échelle se compose de 10 questions avec une échelle de liker (de 1 à 5).
Avantages : Il peut être passé rapidement car il n’est composé que de 10 questions. Il est valide, c’est-à-dire qu’il mesure bien ce qu’il est censé mesurer. Il est finalement pas si « Quick and Dirty » que cela car il a fait l’objet de plus 500 études !
Inconvénients : Le questionnaire ne permet de diagnostiquer les problèmes. Il y a une corrélation faible (0,24, mais équivalente d’autres questionnaires) entre le SUS et la performance.
Références : Description de la méthode SUS.

Il est intéressant de voir la diversité de ces méthodes qui répondent à des besoins différents. D’où la nécessité de bien définir ses besoins, ses moyens, ses attentes et de poser correctement ses hypothèses en amont.

Le bloc-notes, UX & Design d'expérience utilisateur