Seturile de date publice de imagini ale pielii care sunt folosite pentru a antrena algoritmi pentru a detecta problemele pielii nu includ suficiente informații despre tonul pielii, potrivit unei noi analize. Și în seturile de date în care sunt disponibile informații despre tonul pielii, doar un număr foarte mic de imagini sunt de piele mai închisă – așa că algoritmii construiți folosind aceste seturi de date ar putea să nu fie la fel de precise pentru persoanele care nu sunt albe.
Studiul, publicat astăzi în The Lancet Digital Health, a examinat 21 de seturi de date liber accesibile de imagini ale afecțiunilor pielii. Combinate, au conținut peste 100.000 de imagini. Puțin peste 1.400 dintre aceste imagini aveau atașate informații despre etnia pacientului, iar doar 2.236 aveau informații despre culoarea pielii. Această lipsă de date limitează capacitatea cercetătorilor de a identifica părtiniri în algoritmii antrenați pe imagini. Și astfel de algoritmi ar putea foarte bine să fie părtinși: dintre imaginile cu informații despre tonul pielii, doar 11 au fost de la pacienți cu cele mai întunecate două categorii de pe scala Fitzpatrick, care clasifică culoarea pielii. Nu au existat imagini de la pacienți de origine africană, afro-caraibiană sau din Asia de Sud.
Concluziile sunt similare cu cele dintr-un studiu publicat în septembrie, care a constatat, de asemenea, că majoritatea seturilor de date sunt folosite pentru antrenament algoritmii dermatologici nu au informații despre etnie sau nuanța pielii. Studiul respectiv a examinat datele din spatele a 70 de studii care au dezvoltat sau testat algoritmi și a constatat că doar șapte descriu tipurile de piele din imaginile utilizate.
„Ceea ce vedem din numărul mic de lucrări care raportează distribuția nuanței pielii este că acestea arată o subreprezentare a tonurilor mai închise ale pielii”, spune Roxana Daneshjou, un cercetător clinic în dermatologie la Universitatea Stanford și autor al lucrării din septembrie. Lucrarea ei a analizat multe dintre aceleași seturi de date ca și noul Lancet cercetare și a ajuns la concluzii similare.
Când imaginile dintr-un set de date sunt disponibile public, cercetătorii pot analiza și revizui tonurile pielii par a fi prezente. Dar asta poate fi dificil, deoarece fotografiile s-ar putea să nu se potrivească exact cu cum arată nuanța pielii în viața reală. „Cea mai ideală situație este că nuanța pielii este observată în momentul vizitei clinice”, spune Daneshjou. Apoi, imaginea problemei pielii acelui pacient ar putea fi etichetată înainte de a intra într-o bază de date.
Fără etichete pe imagini, cercetătorii nu pot verifica algoritmii pentru a vedea dacă sunt construiți folosind seturi de date cu suficiente exemple de persoane cu diferite tipuri de piele.
Este important să examinăm aceste seturi de imagini, deoarece sunt adesea folosite pentru a construi algoritmi care ajută medicii să diagnosticheze pacienții cu afecțiuni ale pielii, dintre care unele – cum ar fi cancerele de piele – sunt mai periculoase dacă nu sunt depistate devreme. Dacă algoritmii au fost antrenați sau testați doar pe piele deschisă la culoare, ei nu vor fi la fel de precisi pentru toți ceilalți. „Cercetările au arătat că programele instruite pe imagini luate doar de la persoane cu tipuri de piele mai deschise ar putea să nu fie la fel de precise pentru persoanele cu pielea mai închisă și invers”, spune David Wen, coautor al noii lucrări și cercetător la Universitatea din Oxford.
Imagini noi pot fi întotdeauna adăugate la seturile de date publice, iar cercetătorii doresc să vadă mai multe exemple de afecțiuni pe pielea mai închisă la culoare. Și îmbunătățirea transparenței și clarității seturilor de date îi va ajuta pe cercetători să urmărească progresul către seturi de imagini mai diverse care ar putea duce la instrumente AI mai echitabile. „Aș dori să văd mai multe date deschise și mai multe date bine etichetate”, spune Daneshjou.