La meilleure recherche sur l’IA médicale (dont vous n’avez probablement pas entendu parler) – Le blog de la santé

La meilleure recherche sur l’IA médicale (dont vous n’avez probablement pas entendu parler) – Le blog de la santé
5 (100%) 15 votes

Par LUKE OAKDEN-RAYNER

Dans de récents articles, j'ai expliqué en quoi nos méthodes classiques de test des systèmes d'intelligence artificielle sont inadéquates et potentiellement dangereuses. En particulier, jusqu’à présent, tous les articles qui font la une des journaux ne font que des expériences contrôlées. Nous ne connaissons donc pas le fonctionnement des systèmes d’IA sur de vrais patients.

Aujourd'hui, je vais mettre en lumière un travail qui n'a pas retenu beaucoup d'attention, mais qui est allé «à fond» et a testé un système d'IA en pratique clinique, évaluant les résultats cliniques. Ils ont fait un essai clinique réel!

Une grosse nouvelle… alors pourquoi n’en avez-vous pas entendu parler?


Sommaire

La grande muraille de l'ouest

Malheureusement, ce document a été ignoré pour la plupart. 89 tweets *, ce qui est assez triste lorsqu'on le compare à de nombreux autres journaux avec des centaines, voire des milliers, de tweets et d'articles de presse. Il y a une raison évidente pour laquelle cependant; l'article dont je vais parler aujourd'hui vient de Chine (il y a aussi quelques co-auteurs américains qui ne savent pas exactement quelles ont été leurs contributions, mais l'étude a été réalisée en Chine).

La Chine est intéressante. Ils semblent devenir rapidement le leader mondial de l'IA appliquée, y compris en médecine, mais nous entendons rarement parler de ce qui se passe là-bas dans les médias. Lorsque je vais à des conférences et que je parle à des personnes qui travaillent en Chine, elles me parlent toujours de nombreuses entreprises qui appliquent des produits d'IA matures à leurs patients, mais dans les médias, nous voyons surtout des informations sur des projets de recherche occidentaux encore à des années de la pratique clinique. .

Cela ne devrait pas être inattendu. Les journalistes occidentaux ont très peu accès à la Chine ** et les sociétés chinoises d'intelligence artificielle n'ont pas besoin de solliciter une couverture médiatique occidentale. Ils ont déjà accès à un vaste marché, à une expertise, à des données, à un financement et à un soutien important de la part de la gouvernance médicale et du gouvernement en général. Ils n’ont pas besoin de nous. Mais pour nous, en Occident, cela signifie que notre vision de l'IA médicale est étroite, comme une grenouille qui regarde le ciel depuis le fond d'un puits ^.

Ce qui serait vraiment cool, c’est que si quelqu'un connaissant en détail l'IA médicale en Chine veuille entrer en contact et me faire savoir ce qui se passe réellement là-bas. J'aimerais publier un article de blog mettant en valeur des entreprises et des projets de premier plan dont les produits fonctionnent avec de vrais patients dans de véritables cliniques. Il en va de même pour les équipes d’IA en Afrique, en Inde, en Asie du Sud-Est et dans les pays n’ayant aucune couverture médiatique.


Le premier essai clinique sur l'IA médicale

par Wang et al. décrit une étude réalisée à l’Hôpital populaire provincial du Sichuan à Chengdu, en Chine.

Il se présente comme un essai comparatif prospectif randomisé. D'autres ont déjà prétendu faire des essais cliniques sur l'IA, mais ils ont tous échoué (à ma connaissance).

Celui-ci est à la hauteur de la facturation.

Une équipe / entreprise / startup d'IA appelée Shanghai Wision AI Co. a produit un système permettant de détecter les polypes (petites tumeurs) dans la paroi de l'intestin au cours d'une coloscopie. Ils ont effectué des tests de performance montrant une AUC par image de 0,984 dans une expérience rétrospective, ainsi que divers autres résultats prometteurs. Mais la caractéristique déterminante d'un essai clinique (à mon avis) est; «Comment cela change-t-il les résultats pour les patients dans la pratique?» Dans ce cas, l'utilisation du système d'IA permet-elle de diagnostiquer plus de cancer et conduit-elle à davantage de biopsies inutiles?

Dans le document, ils utilisent le système dans la pratique clinique réelle. L'endoscopiste a effectué sa coloscopie normale, mais l'IA les regardait travailler en temps réel. S'il voyait un polype, il émettrait un bip et l'endoscopiste pourrait alors se tourner vers un écran différent qui montre un rectangle flottant recouvrant la vidéo pour mettre en évidence le polype.

Les deux écrans disponibles pour l'endoscopiste. Ils ne regardent que la bonne image (la vue augmentée de l'IA) si l'IA l'alerte, il a vu quelque chose d'important.

Ils mesurent à quelle fréquence l'endoscopiste est d'accord avec le système d'IA, mais s'il le laissait là, ce ne serait qu'un autre exemple de test de performance basé sur la sélection de cohortes potentielles (ce que des chercheurs audacieux ont prétendu en faire un essai clinique à part entière. ).

Mais cette équipe a franchi le pas qui fait passer le travail d'une expérience à un essai clinique: ils ont enlevé les polypes!

Ce sont des polypes que l'IA a remarqués, que l'endoscopiste n'avait pas vus (bien que l'endoscopiste puisse toujours annuler le système, ce qui serait enregistré comme une fausse alarme). Dans cette étude, ils ont pratiqué des procédures médicales invasives sur des patients en raison du résultat d'un système d'IA.

Avant que vous obteniez tous "bien sûr qu'ils l'avaient fait, c'était la Chine, quelque chose de quelque chose de standard de sécurité" **, je veux être clair – ils ont fait exactement ce qui doit être fait pour montrer qu'un système est sûr. Après avoir effectué vos tests de performances et obtenu des résultats prometteurs, vous devez réellement tester ce qui se passe dans la pratique. C'est juste. C'est bon.

Une coloscopie dans une clinique ne fait pas que prendre une décision visuelle. Il (avec l'endoscopiste) décide qui a besoin d'une biopsie. Si vos tests n'incluent pas réellement les biopsies, alors la sécurité médicale de l'IA, vous le faites mal.

Alors, qu'est-ce qu'ils ont trouvé?

Sans surprise, ils ont fait beaucoup plus de biopsies. Ils ont éliminé presque le double du nombre de polypes du groupe IA (500 contre 270 dans le groupe «coloscopie normale», dans à peu près le même nombre d'interventions). Ce chiffre n’est pas intéressant en soi, mais ce qui est intéressant, c’est qu’ils ont spécifiquement trouvé beaucoup plus d’adénomes lorsque les lésions enlevées ont été examinées au microscope (les adénomes sont les polypes susceptibles de se transformer en cancer). Ils ont trouvé 1,89 fois plus de polypes dans l'ensemble, mais également 1,72 fois plus d'adénomes. Cela semble être une énorme augmentation du nombre de cancers potentiels.

Mais le fait qu’ils trouvent des adénomes ne signifie pas que les patients seront mieux lotis. L’équipe a reconnu cela et a également analysé quel genre des adénomes qu'ils ont trouvés.

Comme on pouvait s'y attendre, l'IA a principalement trouvé de petits adénomes «diminutifs». Il est peu probable que les humains passent à côté des plus gros problèmes (le terme technique est mal choisi, mais certaines personnes qualifient ces lésions de «pédonculées»). L’IA n’a pas pu ajouter grand chose à ce groupe de lésions, les taux de détection sont déjà proches de 100%.

Nous savons également que les lésions plus petites découvertes par le système d'IA présentent un risque de cancer moins élevé que les plus grosses (plus de cellules = plus de risque), mais l'équipe le reconnaît. Selon eux, «des études complémentaires devraient aborder le rôle de CADe dans la réduction du cancer à intervalle, objectif principal de toute coloscopie de dépistage». Cela aussi est raisonnable.

Mais il faudra des années pour mener ces expériences, alors la question à poser maintenant est «quand est-il suffisamment sûr pour être utilisé?


Sécurité de l'IA médicale: bien faire les choses

Bien que nous ne disposions pas de données sur les principaux critères d’intérêt (taux de cancer par intervalle, mortalité par cancer), nous disposons de données sur la sécurité. Ils ont enregistré à la fois le taux de fausses alarmes (lorsque l’endoscopiste a annulé le système d’IA et déclaré «Je ne fais pas de biopsie») et le taux de complications (le risque de biopsie est que vous pourriez percer l’intestin).

Étonnamment, le taux de fausse alarme était minuscule. Malgré un taux de fausse alerte d'environ 5% par image signalé précédemment, ils se retrouvent avec une fausse alarme pour 13 coloscopies dans la pratique! Je ne sais pas exactement comment ils y sont parvenus (ils ont vraisemblablement choisi un seuil favorable à la spécificité et en ont fait une magie heuristique «seulement si c’est sur plusieurs cadres»), mais cela semble incroyable.

Le taux de complications était également minime, il était nul! Avec près de 500 biopsies sur 500 cas de coronaropathie et aucune complication, nous sommes assez sûrs d’assumer que le risque ne sera probablement pas beaucoup plus élevé que la normale.

Un autre problème majeur que j’ai avec la plupart des études médicales sur l’IA, sur lequel je n’ai pas beaucoup écrit parce que je suis en train d’étudier l’effet, est qu’il est nécessaire d’examiner avec soin les cas dans lesquels le système a mal tourné. Tout simplement parce qu'un système d'IA est aussi bon qu'un humain (obtient autant ou moins de cas erronés), cela ne signifie pas qu'ils sont le même cas. Que se passe-t-il si les erreurs humaines sont bénignes et ne causent jamais de préjudice, alors que les erreurs de l'IA menacent la vie ^ ^? La seule façon de comprendre la distribution des erreurs est de regarder les images (ce que j'ai dit).

Vous pouvez probablement voir à quel point c'est utile pour un clinicien. Si le système décide qu’il détecte un polype, l’utilisateur peut immédiatement rechercher des capsules et des bulles de médicament, ce qui équivaut à un radiologue considéré comme une cause de signes visuels inhabituels. Je pense que ce type d'analyse d'erreur est plus utile sur le plan clinique que n'importe quelle technique d'interprétabilité (bien qu'en pratique, il soit assez courant de ne pas avoir de raison appréciable pour les erreurs).

Donc, compte tenu de ces données de sécurité et de cette analyse supplémentaire, qu’en est-il?

S'ils n'avaient que des tests de performance, même si j'avais dix fois plus de courage ^ je ne serais pas disposé à utiliser ce système d'IA sur des patients. Les résultats des tests de performance peuvent être trompeurs de multiples façons.

Mais ils ont fait un essai clinique, avec un critère de substitution approprié. Ils ont même discuté très équitablement des défaillances possibles du plan d’étude et évoquent avec plaisir la possibilité de biais de la part des utilisateurs en raison du manque d’aveuglement du fait que les endoscopistes font preuve d’un «esprit de compétition» trop important, ce qui a apparemment été signalé à.

En ce qui concerne l'aveuglement, c'était évidemment impossible ici. Ils ont une machine qui va ping pour le bras de l'IA. Qui mènerait une expérience d'IA aveuglée…

eh bien, cette équipe le ferait!

Ils ont récemment posté un résumé pour avec simulacre d'IA! Il s’agit d’un engagement sérieux en faveur de l’exploration scientifique et j’espère ardemment avoir plus de détails sur la publication d’un rapport complet.

En résumé, je pense qu'ils ont fait le travail nécessaire pour démontrer un niveau raisonnable d'innocuité et d'efficacité, suffisant pour justifier l'utilisation clinique. Nous avons encore besoin de voir si cela fonctionne avec des résultats à long terme, et si cela fonctionne chez d'autres populations (ce qu'ils reconnaissent également), mais dans le même temps, leur propre signature semble juste:

Alors voilà. Un essai clinique sur l'IA qui (à mon avis) fournit suffisamment de preuves pour justifier une utilisation clinique.

Une telle chose est aussi rare qu'une plume de phénix ^.


* Même Eric Topol a raté le coche au départ, bien qu'il ait réussi à tweeter à peu près tous les bons papiers qui sortent. Il avait des yeux, mais ne pouvait pas voir Mt Tai ^.
** Je ne veux pas en finir avec le sucre, de même qu’un manque d’accès est clairement un élément de désintérêt moqueur, voire de racisme en jeu. Presque tous les reportages que j'ai vus sur l'intelligence artificielle chinoise se concentrent sur les aspects négatifs de leurs systèmes médical / juridique / politique, soulignant les préoccupations relatives au manque de confidentialité, de réglementation, de sécurité, etc. C’est bien de soulever ces questions, et beaucoup d’entre elles sont sérieuses, du moins de mon point de vue à distance, mais seulement se concentrer sur ceux-ci est évidemment biaisé quand il y a une tonne de travail cool qui se passe là-bas.
^ J'ai lu (souvent sans relation) beaucoup de fiction chinoise récemment, mon jeu de langage est donc pertinent. L'image d'en-tête est aussi une référence – en substance, «Crouching Tigers and Hidden Dragons» décrit des experts non découverts, ce qui était trop pertinent pour ne pas figurer dans le contexte de cet article.
^^ J’ai (non publié) des exemples concrets d’intelligence artificielle performante faisant des erreurs mortelles, ce n’est pas simplement hypothétique.

Luke Oakden-Rayner est radiologue (spécialiste médical) en Australie méridionale. Elle est titulaire d'un doctorat en médecine de la School of Public Health de l'Université d'Adélaïde. Cet article a été publié sur son blog .

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *