samedi 25 février 2017

Évaluation par compétence dans le supérieur, une première approche.

C'est dans l'air du temps et avec les nouveaux programmes, c'est devenu imposé par le ministère : l'évaluation par compétence est maintenant devenu la norme. Du coup, je m'y suis essayé pour un sujet d'agrégation blanche. Le sujet fait 100 questions, traite plusieurs sujets et est suffisamment vaste et long pour faire appel à un panel complet de compétences.


Pour l'instant, j'ai tout fait sous Excel (enfin, Calc sous Open Office), mais clairement, ça mériterait d'être amélioré avec un vrai système automatisé et quelques améliorations en terme d'ergonomie. J'ai quelques idées pour automatiser, mais clairement, il y a des complications à prendre en compte si on passe en applicatif.

Plus que la partie compétence en elle même, c'est plutôt ce que ça implique qui m'a séduit. La fiche finale anonymisée est disponible.


Les compétences

Je n'ai pas cherché à faire original et l'intérêt est plutôt à la normalisation. Cependant, la catégorisation a vite montré ses limites avec des questions étant un peu tangentes. J'ai donc gardé les compétences suivantes :

  • APP : s'approprier, souvent cela veut dire qu'il fallait analyser un document fourni et le comprendre ;
  • RÉA : réaliser, en général, faire un calcul ou une application numérique ;
  • ANA : analyser, formuler une hypothèse, interpréter un document ;
  •  VAL : valider, confirmer une hypothèse, valider un résultat par l'expérience ;
  •  COM : communiquer, faire une petite synthèse, proposer un argument ;
  •  RC : restitution de connaissance, une connaissance pure (de cours le plus souvent, de la culture générale parfois) ; 


La compétence « réaliser » est tout de même largement prépondérante : à elle seule, cette compétence représentait 70 points pour une vingtaine pour les autres compétences. En même temps, pour un sujet de ce type, ça ne me semble pas extra-ordinaire.

Les items

Pour moi, c'est ce qui a rendu la correction plus juste entre les candidats : le fait de lister les items de correction. Cela permet de baliser des points obligatoires qui seront évalué de manière la plus impartiale possible. Clairement, j'ai encore des progrès à faire pour avoir une description plus précise des items afin d'être encore plus rigoureux. Pour le décompte des points, en cas d'erreur numérique, j'ai compté la moitié des points pour les propagations d'erreur du moment que tout était cohérent. Après, j'ai pris le parti d'accorder très régulièrement 20 % des points pour les personnes ayant tenté de répondre à la question même si la réponse présentait beaucoup d'erreur.

L'établissement du barème


J'ai attribué un nombre de point global à la question (un entier entre 1 et 6), ensuite, chaque item de correction a un coefficient (par exemple, pour la configuration du soufre : la question était sur 1 point,  90% des points de la question portaient sur la configuration et 10 % sur la mention de Klechkowsky par exemple). L'informatisation permet de laisser le calcul se faire de manière automatique sans avoir à gérer des pouièmes de points. De même, bien que le barème ait très peu changé lors de la correction, j'ai fait quelques ajustements en cours de route de manière à refléter au mieux les difficultés de chaque question. Heureusement, je n'ai pas eu trop à ajouter d'éléments de correction au fur et à mesure.

Aspect visuel


J'ai découvert une fonction bien utile de coloration automatique pour que la réussite à chaque question soit visuelle. Pour cela, sous Open Office : Format » Formattage conditionnel » Échelle de couleur. J'ai juste changé en pourcent au lieu de pourcentile. Cela permet d'avoir du vert pour les questions réussies et du rouge pour les questions ratées.


Indications sur la difficulté de la question

Pour cela, j'ai fait deux choses : déjà, le calcul d'un taux moyen de réussite qui permet de donner un indice de difficulté moyen. Cela permet de voir les successions de questions très peu réussies.

Réussite moyenne pour voir si la question est intrinsèquement difficile ou non. On peut voir ici qu'après un passage facile, les choses se sont rapidement corsées.

Après, j'ai découpé les étudiants en quatre catégorie de niveau en me basant sur les notes. Cela permet de voir à quel point la question était discriminante.
Ici, on voit que les meilleurs ont été capables d'aller plus loin dans l'exercice alors que les plus faibles se sont arrêtés très rapidement.
Ici, on peut voir que seuls les deux derniers groupes ont été en réelle difficulté, qu'ils ont pu reprendre l'exercice rapidement et  que certaines parties étaient globalement difficiles pour tout le monde quel que soit le niveau.
Ainsi, j'ai pu voir que la réussite a été très étalée et que globalement le sujet a été sélectif tout en permettant à tout le monde de réussir quelques questions tout en ayant des questions très peu réussies.
Taux de réussite aux questions par ordre croissant.

Ce qu'il manque

Je n'ai pas fait de discrimination entre les échecs purs (personnes ayant mal répondu) et les personnes n'ayant simplement pas tenté de répondre à la question. Ce qui aurait pu permettre de calculer un taux de réussite global et un taux de réussite pour ceux ayant tenté de répondre.

De plus, en terme esthétique, le tout est globalement plutôt laid avec une mise en page peu évoluée. Il a fallu également gérer les exports PDF à la main pour pouvoir transmettre à mes étudiants leur résultat sous forme individuelle en masquant sélectivement des colonnes plus un envoi manuel de mail à faire. C'est sûrement automatisable, mais je ne sais pas le faire. Idem, il serait intéressant de voir en faisant des graphiques par compétence pour voir si chaque type de compétence suit les mêmes tendances. Idem, faire un peu de clustering ainsi qu'un découpage par partie pourrait encore affiner l'analyse.

Conclusion

Il n'y a certes rien de révolutionnaire et la plupart des résultats auraient été visibles sans ces outils. Cependant, j'ai eu l'impression de pouvoir plus me concentrer sur la correction pure des copies plutôt que les détails annexes (décompte des points, attribution de points en fonction des éléments de réponse). De plus, j'ai pu ainsi avoir une lecture plus fine de mes résultats. Vu que ma promotion est assez petite, une approche statistique n'est pas forcément la plus pertinente, mais pour une promotion plus grande, cela aurait encore renforcé l'intérêt.




Aucun commentaire:

Enregistrer un commentaire