Le SUS est un questionnaire qui est à l’origine « quick and dirty », donc rapidement fait sans avoir de prétentions particulières. Il a été créé par John Brooke en 1986, pour répondre à un besoin de mesure rapide d’un système électronique. Depuis ce questionnaire est régulièrement utilisé et plusieurs études ont porté sur sa validité. Il se trouve qu’il est beaucoup moins « dirty » que prévu, mais toujours aussi « quick » !
Présentation
Le SUS se compose de dix questions qui permettent de recueillir le point de vue subjectif de l’utilisateur sur un système ou un service. Le SUS se base sur une échelle de Likert qui permet à l’utilisateur de répondre sur une échelle en 5 ou 7 points de « Pas du tout d’accord » à « Tout à fait d’accord ».
Pour construire le SUS, il a fallu identifier des questions qui provoquent des réponses tranchées. Pour cela, une cinquantaine de questions potentielles ont été posées à des utilisateurs après le test de deux systèmes différents. Les questions conservées sont celles qui provoquaient les réponses les plus extrêmes. Il y avait aussi une corrélation forte (+0,7 à +0,9) entre ces questions. La moitié des questions sélectionnées présentait un accord fort, l’autre moitié un désaccord.
Dans le questionnaire ci-dessous, on observe que les questions portent sur divers aspects tels que la convivialité du service, la complexité, la facilité d’apprentissage,…
Utiliser le SUS
Le questionnaire SUS est généralement utilisé après que l’utilisateur est eu l’opportunité d’utiliser le service à évaluer, mais avant tous debriefing ou discussion. Il est demandé aux utilisateurs de donner une réponse rapide à chaque question, et de ne pas réfléchir longuement.
Toutes les questions doivent être remplis. Si un utilisateur ne sait pas quoi répondre il doit répondre au milieu de l’échelle.
Calculer le score SUS
SUS donne un score unique représentant une mesure composite de la convivialité générale du service étudié. Notez que les scores pour chaque items ne sont pas significatifs par eux même.
Pour calculer le score de SUS :
- Pour les items 1,3,5,7 et 9, le score est le résultat sur l’échelle moins 1. (tout à fait d’accord : 5-1 = 4)
- Pour les articles 2,4,6,8 et 10, Le score est 5 moins le résultat sur l’échelle . (tout à fait d’accord : 5-5 = 0)
- Faire le total des scores et multiplier par 2,5 pour obtenir le score SUS qui varie de 0 à 100.
- Faire la moyenne des scores des participants.
Attention, on obtient un score de 0 à 100, mais ce n’est pas un « pourcentage d’utilisabilité » !
Le questionnaire
La version présentée ici est une traduction personnelle en français de la version américaine. J’utilise le terme de « service » à la place du terme de « système » car celui-ci est peu d’actualité et sans doute moins adapté pour des sites web ou des applications.
Conclusion
Ce questionnaire a le mérite de la simplicité. Il est donc relativement robuste et fiable. De plus, il est valide car son score corrèle généralement avec les autres indicateurs de l’utilisabilité. Il peut être mise en œuvre facilement pour compléter une étude ou donner un score après un test utilisateur. Le SUS a été mis à disposition gratuitement pour l’utiliser afin d’évaluer l’utilisabilité, la seule condition préalable à son utilisation, c’est que tout rapport publié doit mentionner la source de la mesure.
References
- Brooke, J. (1996). « SUS: a « quick and dirty » usability scale ». In P. W. Jordan, B. Thomas, B. A. Weerdmeester, & A. L. McClelland. Usability Evaluation in Industry. London: Taylor and Francis.
- Bevan, N, Kirakowski, J and Maissel, J, 1991, What is Usability?, in H.-J. Bullinger, (Ed.). Human Aspects in Computing: Design and use of interactive systems and work with terminals, Amsterdam: Elsevier.
- Kirakowski, J and Corbett, M, 1988, Measuring User Satisfaction, in D M Jones and R Winder (Eds.) People and Computers IV. Cambridge: Cambridge University Press.
- Wikipedia
« Le SUS a été mis à disposition gratuitement pour une utilisation de l’évaluation de l’utilisabilité ». Tu veux sûrement dire « pour l’utiliser afin d’évaluer l’utilisabilité ». C’est malheureusement souvent le cas.
Seulement voilà, il n’évalue pas l’utilisabilité mais ce qu’en pensent des sujets ce qui n’est pas la même chose. Certes, il existe une corrélation entre le résultat au SUS et la performance à la tâche, mais elle est modeste (.24) « which means that only around 6% of the SUS scores are explained by what happens in the usability test » comme le rappel Jeff Sauro.
Pour ce qui est de la satisfaction et du SUS (sa place donc ;)), il me semble que la technique basée sur les emoticones utilisée par la norme 20282 est plus intéressante car elle permet de mieux localiser les problèmes de satisfaction du fait d’une passation post-tache et non poste expérimentation.
Le SUS reste intéressant… si on le laisse à sa place.
Sir, Yes, Sir !
Il ne faut pas oublier de parler de l’interprétation du score SUS!
Toutes les infos sont dans cet article:
Bangor, A., T. Kortum, P., T. Miller, J. (2008). An Empirical Evaluation of the System Usability Scale. Intl Journal of Human-Computer Interaction, 24(6). p 574-594.
En gros en dessous de 75 cela veut dire qu’il faut encore faire des efforts. 🙂
Merci, ça va pouvoir m’être utile pour un test que je dois mener prochainement.
Par contre je n’ai pas réussi à m’expliquer la présence de T. Pratchett dans la bibliographie… ^^
Heu oui ! J’ai copier/coller cette biblio et je pense que je ne suis pas le seul…
Je me demandais, lorsqu’on a fait passer le test à plusieurs personnes, dans quel ordre procède-t-on ?
On fait la moyenne ou la médiane des réponses de chaque question avant de faire les soustractions / additions ou l’inverse, on traite chaque réponse avant d’en faire la moyenne ?
Il faut traiter chaque questionnaire individuellement avant de faire la moyenne.
Bonjour Raphaël,
Tu dis dans ton article « Notez que les scores pour chaque items ne sont pas significatifs par eux même. ». Pourrais-tu être plus explicite sur ce point, s’il te plaît ?
En effet, je mets actuellement ce questionnaire en place dans mon entreprise. Et je pensais justement pouvoir tirer des informations pour chaque items. Sinon quelles sont les autres informations que l’on peut tirer de ce questionnaire ?
Merci beaucoup pour ta réponse.
Bonne journée.
Je pense que tout ce que tu peux tirer du SUS c’est un score global, l’avantage c’est qu’il permet de comparer différents produits. Le score est indépendant de la plateforme.
Tools/weloveusers permet de faire passer le SUS directement et d’obtenir les résultats sans avoir à faire nous-même les calculs. Très confortable 🙂
@Brigitte P.
je ne connais pas vraiment cet outil. Je me suis inscris pour tester et j’ai trouvé l’outil super conformatable 🙂
merci pour le partage
bonjour
j’aimerai savoir comment trouver les résultats de l’outils en pourcentage?
cordialement !
Bin, c’est juste pas possible. Il n’est pas construit comme ça.
Bonjour,
existe t’il une version française validée par la communauté du questionnaire SUS?
Merci
Cordialement
Non, à ce jour je n’ai pas trouvé de SUS en français standardisé. Je continu de chercher !
ok merci!
Si jamais vous en trouvez une, vous serait-il possible de nous donner le lien, svp?
Merci et bonne fin de journée
Bonjour,
Merci pour votre article,
Je souhaite savoir si il est possible de calculer moyenne, écart type intervalle de Confiance pour :
– chacune des 10 questions ?
– l’ensemble des 10 questions ?
En fait, dans le calcul vous faites déjà la moyenne pour chaque questions ou la moyenne des scores (ça revient au même) de chaque participant. On peut donc calculer un écart-type pour l’ensemble des réponses, mais c’est peu utilisé à ma connaissance.
Pour ce qui est des calculs sur les réponses individuelles, il ne faut pas perdre de vue que seul le score global est validé.
Ce n’est pas comme AttrakDiff par exemple ou chaque réponse peut-être utilisée individuellement.
Bonjour,
Pour obtenir un résultat fiable, quelle est la taille de l’échantillon dont on a besoin ?
merci 🙂
Vous trouverez la réponse dans cet article sur Measuring U. À partir de 2… Pour pouvoir un intervalle de confiance… Autrement dis, plus l’échantillon est grand et homogène plus le résultat est fiable.
Hello,
le questionnaire pdf dans cet article ne contient pas vraiment une échelle Likert car elle propose quand même des notes de 1 à 5.
Pour que ce soit une échelle de Likert et donc sans la subjectivité des chiffres il aurait fallu remplacer ces chiffres par les terme d’accord ou désaccord à plusieurs niveau d’affirmation.
Merci pour cet article 🙂
Pour info, un lien vers le F-SUS (2021), soit une traduction réalisée avec un protocole pour conserver un maximum de sens: http://www.guillaumegronier.com/cv/blog/files/6545bc93a9d0952c2afac2581129ae7c-0.html