dimanche 7 juin 2015

Le numéro CAS, un identifiant dépassé ?

Pour identifier un produit chimique, il existe de nombreux identifiants :

Parmi cette forêt d'identifiants, les chimistes raisonnent généralement en terme de numéro CAS. En effet, il est généralement mentionné sur les pots des produits et relativement facilement accessible (via le site emolecules par exemple). Et comme le numéro CAS est porté par l'ACS, il y a une certaine 'crédibilité' associée à cet identifiant ainsi qu'un gros lobbying indirect.

Pourtant, le numéro CAS est aussi bourré de défauts, et non des moindre.

Un identifiant pas si unique

La base de donnée des numéros CAS est protégée, et il faut donc payer pour y avoir accès de manière fiable. Ainsi, cet identifiant qui est pourtant censé être unique peut finir par ... ne plus vraiment l'être.

En effet, comme la base de donnée est propriétaire, la plupart des gens vont voir chez les autres un numéro CAS, puis le recopient sans avoir aucun moyen de le vérifier eux-même, et les lecteurs ne peuvent à priori pas non plus le vérifier.

L'article cité plus haut présente ainsi un composé très exotique : l'aspirine pour laquelle on peut trouver jusqu'à 6 numéro CAS différents en fonction de l'endroit où l'on cherche. Du coup, l'identifiant unique n'est .. plus si unique. En effet, le numéro CAS peut par exemple prendre en compte le polymorphisme : différentes phases du même composé ont un numéro CAS différent. Ce n'est pas forcément un problème en soi, effectivement, les propriétés peuvent fortement différer en fonction de la phase cristalline, mais quelqu'un qui cherche de l'aspirine ne cherche pas forcément une phase particulière. Or en entrant un numéro CAS, on peut finir avec une phase spécifique même si c'est pour utiliser le composé en phase liquide. Un peu dommage...

Pour des composés pas si uniques

De même, des isomères différents peuvent avoir différents numéro CAS, du coup, en faisant une recherche par numéro CAS, on peut finir soit avec un mélange racémique, un isomère ou un autre mélange d'isomères que celui souhaité. Or le plus souvent, les chimistes recherchent avant tout un composé avec une structure donnée. Un chimiste non averti qui a une confiance aveugle en le numéro CAS, il pourra finir avec un mélange racémique s'il n'a pas fait suffisamment attention à la désignation du produit.

Un format propriétaire et fermé

Dans tous les cas où il y a doute, aucune manière de vérifier car il n'y a que les personnes qui ont payé (cher, voire très cher) l'accès à la base de donnée du CAS qui peuvent vérifier. Ainsi, l'uniformité des données et numéros CAS n'est absolument pas garantie. L'article cité plus haut ainsi que Glushko dans le livre The Discipline of Organizing résument très bien ce problème.


En effet : l'utilisateur fait confiance au numéro CAS fourni par l'autorité Y (gratuite) sans avoir accès à l'autorité X(payante) qui est pourtant la seule à avoir autorité. Moralité, il n'est pas possible de vérifier si le numéro CAS fourni est réellement le bon car le lien entre l'autorité X et Y n'est pas forcément établi. Ce mode de fonctionnement favorise énormément la propagation d'erreur.

Ainsi, l'aspect propriétaire fermé empêche toute vérification pour l'utilisateur quelconque. C'est donc un frein notable à l'adoption du numéro CAS en tant que réel standard faisant autorité pour la désignation de substances chimiques.

Impossible à informatiser

En plus des problèmes sus-cités, comme le format est à accès payant, il n'est pas possible de librement consulter la base de donnée via une quelconque API. Du coup, encore une fois, il est impossible de propager le numéro CAS en tant que standard puisque l'ACS -- dans son immense bonté -- ne donne accès qu'à à peine 10000 composés via la base commonchemistry. Pendant ce temps là, Pubchem donne accès à environ 200 000 000 composés (oui, 200 millions, soit environ 10⁴ fois plus, une paille quoi). Et en plus de cela, Pubchem le fait via une API documentée là où l'ACS ne laisse accès que via une interface web. De plus, Pubchem propose différents autres descripteurs que le CID comme l'InChi, SMILES, etc.

Conclusion

Aujourd'hui, l'inter-opérabilité est une clé, le boom de LibreOffice, GoogleDoc et le déclin de la suite Office de Microsoft en sont un preuve, tout comme le déclin de Microsoft en tant qu'OS sur les appareil nomades, etc. L'IUPAC avec l'InChi et l'InChiKey proposent maintenant des alternatives concrètes pour créer des identifiants basés sur la structure du composé de manière unique, reproductible, gratuite, standardisé et ce en toute transparence. À mon avis, si l'ACS ne fait pas un effort, le CAS va lentement péricliter face aux nouveaux standards qui permettent une informatisation bien plus simple. Bien que le numéro CAS soit encore très largement utilisé, il est de plus en plus courant d'avoir à informatiser des données, or pour l'instant, il n'est pas simple de travailler à grande échelle de manière sure en se basant sur le numéro CAS. En effet, la communication entre les bases de données de produits chimiques est maintenant essentielle pour pouvoir communiquer efficacement sur la toxicité et les propriétés physiques des différents composés chimique, savoir quels sont les stocks, etc.

Alors, l'ACS, chiche de faire le pari de l'ouverture ?

Aucun commentaire:

Enregistrer un commentaire