Stóra tungumálalíkanið (LLM) getur skrifað sannfærandi greinar byggðar á skjótum orðum, staðist fagleg hæfnipróf og skrifað upplýsingar sem eru vingjarnlegar og samúðarfullar. Hins vegar, auk þekktra áhættuþátta tengdum skáldskap, viðkvæmni og ónákvæmum staðreyndum í LLM, eru önnur óleyst mál smám saman að verða í brennidepli, svo sem gervigreindarlíkön sem innihalda hugsanlega mismunandi „mannleg gildi“ í gerð og notkun, og jafnvel þótt LLM búi ekki lengur til efni og útrými greinilega skaðlegum niðurstöðum, geta „LLM gildi“ samt sem áður vikið frá mannlegum gildum.
Ótal dæmi sýna hvernig gögnin sem notuð eru til að þjálfa gervigreindarlíkön kóða einstaklingsbundin og félagsleg gildi, sem geta fest sig í sessi innan líkansins. Þessi dæmi fela í sér fjölbreytt notkunarsvið, þar á meðal sjálfvirka túlkun á röntgenmyndum af brjóstholi, flokkun húðsjúkdóma og reiknirit varðandi úthlutun læknisfræðilegra auðlinda. Eins og fram kemur í nýlegri grein í tímaritinu okkar geta hlutdræg þjálfunargögn magnað upp og afhjúpað gildi og hlutdrægni sem eru til staðar í samfélaginu. Þvert á móti hafa rannsóknir einnig sýnt að hægt er að nota gervigreind til að draga úr hlutdrægni. Til dæmis beittu vísindamenn djúpnámslíkönum á röntgenmyndir af hné og uppgötvuðu þætti sem hefðbundnir alvarleikavísar (metnir af geislalæknum) innan hnésins misstu af, og þar með dregið úr óútskýrðum mun á verkjum milli svartra og hvítra sjúklinga.
Þó að fleiri og fleiri geri sér grein fyrir skekkjunni í gervigreindarlíkönum, sérstaklega hvað varðar þjálfunargögn, þá er mörgum öðrum aðgangspunktum mannlegra gilda ekki gefinn nægur gaumur í þróun og innleiðingu gervigreindarlíkana. Læknisfræðileg gervigreind hefur nýlega náð glæsilegum árangri, en að miklu leyti hefur hún ekki tekið sérstaklega tillit til mannlegra gilda og samspils þeirra við áhættumat og líkindafræðilega rökhugsun, né hefur hún verið líkönuð.
Til að útskýra þessi abstrakt hugtök á raunverulegan hátt skaltu ímynda þér að þú sért innkirtlasérfræðingur sem þarf að ávísa erfðabreyttu vaxtarhormóni fyrir 8 ára dreng sem er undir 3. hundraðshluta aldurs hans. Örvað vaxtarhormónmagn drengsins er undir 2 ng/ml (viðmiðunargildi, >10 ng/ml, viðmiðunargildi fyrir mörg lönd utan Bandaríkjanna er >7 ng/ml) og gen hans sem erfðir vaxtarhormóns hefur greint sjaldgæfar óvirkjunarstökkbreytingar. Við teljum að notkun vaxtarhormónameðferðar sé augljós og óumdeilanleg í þessu klíníska umhverfi.
Notkun meðferðar með vaxtarhormóni manna í eftirfarandi tilvikum getur valdið deilum: hæð 14 ára drengs hefur alltaf verið í 10. hundraðshluta jafnaldra hans og hámark vaxtarhormóns eftir örvun er 8 ng/ml. Engar þekktar virknibreytingar eru til staðar sem geta haft áhrif á hæð, né aðrar þekktar orsakir lágs vaxtar, og beinaldur hans er 15 ára (þ.e. engin þroskaseinkun). Aðeins hluti deilunnar stafar af mismunandi þröskuldsgildum sem sérfræðingar ákvarða út frá tugum rannsókna á magni vaxtarhormóns sem notað er til að greina einangraðan vaxtarhormónaskort. Að minnsta kosti jafn miklar deilur stafa af áhættu-ávinningshlutfalli af notkun vaxtarhormóns frá sjónarhóli sjúklinga, foreldra sjúklinga, heilbrigðisstarfsmanna, lyfjafyrirtækja og greiðenda. Barnalæknar í innkirtlameðferð geta vegið og metið sjaldgæfar aukaverkanir daglegra inndælinga af vaxtarhormóni í 2 ár á móti líkum á engum eða aðeins lágmarksvexti í fullorðinslíkama samanborið við nútíðina. Drengir geta trúað því að jafnvel þótt hæð þeirra aukist aðeins um 2 cm sé þess virði að sprauta vaxtarhormóni, en greiðandinn og lyfjafyrirtækið geta haft mismunandi skoðanir.
Við tökum kreatínín-byggðan gaukulsíunarhraða (eGFR) sem dæmi, sem er mikið notaður mælikvarði á nýrnastarfsemi til að greina og stigsetja langvinnan nýrnasjúkdóm, setja skilyrði fyrir nýrnaígræðslu eða nýrnagjöf og ákvarða viðmið um minnkun og frábendingar fyrir mörg lyfseðilsskyld lyf. EGFR er einföld aðhvarfsjafna sem notuð er til að meta mældan gaukulsíunarhraða (mGFR), sem er viðmiðunarstaðall, en matsaðferðin er tiltölulega fyrirferðarmikil. Þessi aðhvarfsjafna getur ekki talist gervigreindarlíkan, en hún sýnir margar meginreglur um mannleg gildi og líkindafræðilega rökhugsun.
Fyrsti inngangur að því hvernig mannleg gildi geta farið inn í eGFR er þegar gögn eru valin fyrir aðlögun jöfnna. Upphaflega röðin sem notuð var til að hanna eGFR formúluna samanstendur að mestu leyti af svörtum og hvítum þátttakendum, og notagildi hennar fyrir marga aðra þjóðernishópa er ekki ljóst. Síðari inngangur að þessari formúlu fyrir mannleg gildi eru meðal annars: að velja nákvæmni mGFR sem aðalmarkmið við mat á nýrnastarfsemi, hvað er ásættanlegt nákvæmnistig, hvernig á að mæla nákvæmni og nota eGFR sem þröskuld til að koma af stað klínískri ákvarðanatöku (svo sem að ákvarða skilyrði fyrir nýrnaígræðslu eða ávísa lyfjum). Að lokum, þegar innihald inntakslíkansins er valið, munu mannleg gildi einnig fara inn í þessa formúlu.
Til dæmis, fyrir árið 2021, leggja leiðbeiningar til að kreatíníngildi í eGFR formúlunni yrðu aðlöguð út frá aldri, kyni og kynþætti sjúklings (aðeins flokkuð sem svartir eða ekki svartir einstaklingar). Aðlögunin byggð á kynþætti miðar að því að bæta nákvæmni mGFR formúlunnar, en árið 2020 fóru helstu sjúkrahús að efast um notkun á kynþáttarbundinni eGFR og nefndu ástæður eins og að seinka hæfi sjúklingsins til ígræðslu og gera kynþátt að líffræðilegu hugtaki. Rannsóknir hafa sýnt að hönnun eGFR líkana út frá kynþætti getur haft djúpstæð og mismunandi áhrif á nákvæmni og klínískar niðurstöður. Þess vegna endurspeglar valkvæð áhersla á nákvæmni eða á hluta af niðurstöðum gildismat og getur dylst gagnsæja ákvarðanatöku. Að lokum lagði landsvísu vinnuhópurinn til nýja formúlu sem var endurskoðuð án þess að taka tillit til kynþáttar til að vega og meta frammistöðu og sanngirni. Þetta dæmi sýnir að jafnvel einföld klínísk formúla hefur marga innganga að mannlegum gildum.
Í samanburði við klínískar formúlur með aðeins fáum spávísum getur LLM samanstaðið af milljörðum til hundruðum milljarða af breytum (líkanþyngdum) eða meira, sem gerir það erfitt að skilja. Ástæðan fyrir því að við segjum „erfitt að skilja“ er sú að í flestum LLM er ekki hægt að kortleggja nákvæmlega hvernig á að fá fram svör með spurningum. Fjöldi breytna fyrir GPT-4 hefur ekki enn verið tilkynntur; forveri þess, GPT-3, hafði 175 milljarða breyta. Fleiri breytur þýða ekki endilega sterkari getu, þar sem minni líkön sem innihalda fleiri reiknihringrás (eins og LLaMA [Large Language Model Meta AI] líkanaröðin) eða líkön sem eru fínstillt út frá mannlegri endurgjöf munu standa sig betur en stærri líkön. Til dæmis, samkvæmt mati mannlegra matsmanna, stendur InstrumentGPT líkanið (líkan með 1,3 milljarða breytur) sig betur en GPT-3 við að hámarka niðurstöður líkana.
Nákvæmar upplýsingar um þjálfun GPT-4 hafa ekki enn verið birtar, en upplýsingar um fyrri kynslóðar líkana, þar á meðal GPT-3, InstrumentGPT og margar aðrar opnar LLM kerfi, hafa verið birtar. Nú á dögum fylgja margar gervigreindarlíkön líkanskort; mats- og öryggisgögn GPT-4 hafa verið birt í svipuðu kerfiskorti frá líkanagerðarfyrirtækinu OpenAI. Sköpun LLM má gróflega skipta í tvö stig: upphafsþjálfunarstig og fínstillingarstig sem miðar að því að hámarka niðurstöður líkansins. Í forþjálfunarstiginu er líkaninu útvegað stórt safn sem inniheldur upprunalegan texta frá internetinu til að þjálfa það til að spá fyrir um næsta orð. Þetta virðist einfalda „sjálfvirka útfyllingarferli“ framleiðir öflugt grunnlíkan, en það getur einnig leitt til skaðlegrar hegðunar. Mannleg gildi munu fara inn í forþjálfunarstigið, þar á meðal að velja forþjálfunargögn fyrir GPT-4 og ákveða að fjarlægja óviðeigandi efni eins og klámfengið efni úr forþjálfunargögnunum. Þrátt fyrir þessar tilraunir gæti grunnlíkanið samt hvorki verið gagnlegt né fær um að innihalda skaðlegar niðurstöður. Í næsta stigi fínstillingarinnar mun margt gagnlegt og skaðlaust hegðunarmynstur koma fram.
Í fínstillingarstiginu breytist hegðun tungumálalíkana oft verulega með stýrðri fínstillingu og styrkingarnámi sem byggir á mannlegri endurgjöf. Í stýrðu fínstillingarstiginu munu ráðnir verktakar skrifa svörunardæmi fyrir fyrirsagnir og þjálfa líkanið beint. Í styrkingarnámsstiginu, sem byggir á mannlegri endurgjöf, munu mannlegir matsmenn flokka úttaksniðurstöður líkansins sem dæmi um inntaksinnihald. Síðan beita ofangreindum samanburðarniðurstöðum til að læra „umbunarlíkanið“ og bæta líkanið enn frekar með styrkingarnámi. Ótrúleg lítil þátttaka manna getur fínstillt þessi stóru líkön. Til dæmis notaði InstrumentGPT líkanið teymi um það bil 40 verktaka sem ráðnir voru af hópvinnuvefsíðum og stóðst skimunarpróf sem miðaði að því að velja hóp skýringaraðila sem eru næmir fyrir óskum mismunandi íbúahópa.
Eins og þessi tvö öfgakenndu dæmi, þ.e. einfalda klíníska formúlan [eGFR] og öfluga LLM [GPT-4], sýna, gegna ákvarðanataka manna og mannleg gildi ómissandi hlutverki í að móta niðurstöður líkana. Geta þessi gervigreindarlíkön fangað fjölbreytt gildi sjúklinga og lækna? Hvernig á að leiðbeina opinberlega notkun gervigreindar í læknisfræði? Eins og fram kemur hér að neðan gæti endurskoðun á greiningu læknisfræðilegra ákvarðana veitt grundvallarlausn á þessum málum.
Læknisfræðileg ákvarðanagreining er ekki mörgum læknum kunnug, en hún getur greint á milli líkindafræðilegrar rökhugsunar (fyrir óvissar niðurstöður sem tengjast ákvarðanatöku, svo sem hvort gefa eigi vaxtarhormón í umdeildu klínísku atburðarásinni sem sýnd er á mynd 1) og tillitsþátta (fyrir huglæg gildi sem tengjast þessum niðurstöðum, en gildi þeirra er magnbundið sem „nytsemi“, svo sem gildi 2 cm aukningar á hæð karla), sem veitir kerfisbundnar lausnir fyrir flóknar læknisfræðilegar ákvarðanir. Í ákvarðanagreiningu verða læknar fyrst að ákvarða allar mögulegar ákvarðanir og líkur sem tengjast hverri niðurstöðu og síðan fella inn nytsemi sjúklingsins (eða annars aðila) sem tengist hverri niðurstöðu til að velja viðeigandi kost. Þess vegna fer réttmæti ákvarðanagreiningar eftir því hvort niðurstaðan sé alhliða, sem og hvort mæling á nytsemi og mat á líkum séu nákvæm. Helst hjálpar þessi aðferð til að tryggja að ákvarðanir séu byggðar á vísindalegum grunni og í samræmi við óskir sjúklinga, og þar með minnka bilið milli hlutlægra gagna og persónulegra gilda. Þessi aðferð var kynnt í læknisfræðinni fyrir nokkrum áratugum og beitt við ákvarðanatöku einstakra sjúklinga og mat á heilsufari lýðsins, svo sem að veita ráðleggingar um skimun fyrir ristilkrabbameini til almennings.
Í greiningu læknisfræðilegra ákvarðana hafa ýmsar aðferðir verið þróaðar til að ákvarða notagildi. Flestar hefðbundnar aðferðir leiða beint gildi frá einstökum sjúklingum. Einfaldasta aðferðin er að nota matskvarða þar sem sjúklingar meta hversu mikið þeir kjósa ákveðna útkomu á stafrænum kvarða (eins og línulegum kvarða frá 1 til 10), þar sem öfgakenndustu heilsufarsleg útkomur (eins og fullkomin heilsa og dauði) eru staðsettar í báðum endum. Tímaskiptaaðferðin er önnur algeng aðferð. Í þessari aðferð þurfa sjúklingar að taka ákvörðun um hversu miklum heilsufarslegum tíma þeir eru tilbúnir að eyða í skiptum fyrir tímabil með slæma heilsu. Staðlaða fjárhættuspilaaðferðin er önnur algeng aðferð til að ákvarða notagildi. Í þessari aðferð eru sjúklingar spurðir hvorn tveggja kostanna þeir kjósa: annað hvort að lifa ákveðinn fjölda ára við eðlilega heilsu með ákveðinni líkindum (p) (t) og bera áhættu á dauða með 1-p líkindum; annað hvort að ganga úr skugga um að lifa í t ár við mismunandi heilsufarsskilyrði. Spyrjið sjúklinga margoft við mismunandi p-gildi þar til þeir sýna engan kjósandi kost, svo hægt sé að reikna notagildið út frá svörum sjúklinga.
Auk aðferða sem notaðar eru til að kanna óskir einstaklinga hafa einnig verið þróaðar aðferðir til að ná fram notagildi fyrir sjúklingahópinn. Sérstaklega geta umræður í áhersluhópum (þar sem sjúklingar koma saman til að ræða tiltekna reynslu) hjálpað til við að skilja sjónarmið þeirra. Til að safna saman notagildi hópsins á áhrifaríkan hátt hafa verið lagðar til ýmsar skipulagðar hópumræðuaðferðir.
Í reynd er bein innleiðing nytsemi í klíníska greiningu og meðferðarferli mjög tímafrek. Sem lausn eru spurningalistar venjulega dreifðir til handahófsvalinna hópa til að fá nytsemisskor á hópstigi. Sem dæmi eru EuroQol 5-víddar spurningalisti, 6-víddar nytsemisþyngdarstuttform, Heilsu-nytsemisvísitalan og Kjarna 30 spurningalisti Evrópsku krabbameinsrannsókna- og meðferðarstofnunarinnar um lífsgæði.
Birtingartími: 1. júní 2024




