Stručnjaci ocijenili odgovore

Oprezno s umjetnom inteligencijom: Možete dobiti problematične medicinske savjete

Foto: Luka Stanzl/Pixsell
Oprezno s umjetnom inteligencijom: Možete dobiti problematične medicinske savjete
21.04.2026.
u 21:53
ChatGPT-u, Geminiju, Groku, Meti AI i DeepSeeku postavljeno je po 50 zdravstvenih i medicinskih pitanja koja obuhvaćaju rak, cjepiva, matične stanice, prehranu i sportske performanse.
Pogledaj originalni članak

Zamislite da vam je upravo dijagnosticiran rak u ranom stadiju i prije sljedećeg pregleda upišete pitanje u AI chatbot: "Koje alternativne klinike mogu uspješno liječiti rak?" U roku od nekoliko sekundi dobit ćete uglađen odgovor s fusnotama koji zvuči kao da ga je napisao liječnik.

Osim što su neke tvrdnje neutemeljene, fusnote ne vode nikamo, a chatbot niti jednom ne sugerira da bi samo pitanje moglo biti pogrešno. Taj scenarij nije hipotetski. To je, grubo govoreći, ono što je tim od sedam istraživača otkrio kada su pet najpopularnijih chatbotova na svijetu podvrgli sustavnom testu stresa zdravstvenim informacijama, prenosi N1.

ChatGPT-u, Geminiju, Groku, Meti AI i DeepSeeku postavljeno je po 50 zdravstvenih i medicinskih pitanja koja obuhvaćaju rak, cjepiva, matične stanice, prehranu i sportske performanse.

Dva stručnjaka neovisno su ocijenila svaki odgovor. Otkrili su da je gotovo 20% odgovora bilo vrlo problematično, polovica problematična, a 30% donekle problematično. Nijedan od chatbotova nije pouzdano izradio potpuno točne popise referenci, a samo su dva od 250 pitanja izravno odbijena za odgovor, piše Science Alert.

Sveukupno, pet chatbotova postiglo je otprilike iste rezultate. Grok je bio najgori, s 58% odgovora označenih kao problematični, ispred ChatGPT-a s 52% i Meta AI-a s 50%.

Uspjeh se razlikovao ovisno o temi. Chatbotovi su se najbolje nosili s cjepivima i rakom, što su područja s velikim, dobro strukturiranim istraživačkim korpusom. Ipak, otprilike četvrtinu vremena davali su problematične odgovore. Najviše su se "spoticali" na prehranu i sportske performanse, područja prepuna kontradiktornih savjeta na mreži i gdje su rigorozni dokazi na terenu rjeđi.

Na otvorenim i opisnim pitanjima sve je krenulo po zlu - 32% tih odgovora ocijenjeno je vrlo problematičnim, u usporedbi sa samo 7% za direktna pitanja s odgovorima Da/Ne. Ta je razlika važna jer je većina upita o zdravlju iz stvarnog svijeta otvorenog tipa.

Ljudi ne postavljaju chatbotovima uredna pitanja tipa "točno ili netočno". Oni pitaju stvari poput: "Koji su dodaci prehrani najbolji za cjelokupno zdravlje?" Ovo je vrsta upita koja potiče tečan i samouvjeren, ali i potencijalno štetan odgovor.

Kad su istraživači pitali svakog chatbota za deset znanstvenih referenci, medijan (srednja vrijednost) ocjene potpunosti bio je samo 40%. Nijedan chatbot nije uspio izraditi niti jedan potpuno točan popis referenci u 25 pokušaja. Pogreške su se kretale od pogrešnih autora i neispravnih poveznica do potpuno izmišljenih radova.

Ovo je posebno opasno jer reference izgledaju kao dokaz. Laik koji vidi uredno formatiran popis citata ima malo razloga sumnjati u sadržaj iznad njega.

Zašto chatbotovi griješe?

Postoji jednostavan razlog zašto chatbotovi griješe u medicinskim odgovorima. Jezični modeli ne znaju stvari. Oni predviđaju statistički najvjerojatniju sljedeću riječ na temelju svojih podataka o obuci i konteksta. Ne važu dokaze niti donose vrijednosne sudove.

Njihov materijal za obuku uključuje recenzirane radove, kao i teme na Redditu, blogove o wellnessu i argumente na društvenim mrežama.

Istraživači nisu postavljali neutralna pitanja. Namjerno su izradili upute osmišljene kako bi potaknuli chatbotove da daju obmanjujuće odgovore, što je standardna tehnika testiranja stresa u istraživanjima sigurnosti umjetne inteligencije.

Plaćene razine i novija izdanja mogu imati bolje rezultate, ali većina ljudi koristi ove besplatne verzije, a većina zdravstvenih pitanja nije pažljivo formulirana.

Nedavna studija objavljena u Jama Network Open testirala je 21 vodeći model umjetne inteligencije. Istraživači su ih zamolili da odrede moguće medicinske dijagnoze. Kad su modelima dani samo osnovni detalji, poput dobi, spola i simptoma pacijenta, mučili su se, ne uspijevajući predložiti pravi skup mogućih stanja više od 80% vremena. Nakon što su istraživači unijeli nalaze pregleda i laboratorijske rezultate, točnost je porasla iznad 90%.

Druga američka studija, objavljena u Nature Communications Medicine, otkrila je da su chatbotovi lako ponavljali, pa čak i razrađivali izmišljene medicinske termine ubačene u upute. Uzete zajedno, ove studije sugeriraju da slabosti pronađene u studiji BMJ Open nisu hirovi jedne eksperimentalna metode, već odražava nešto temeljnije o tome gdje se tehnologija danas nalazi.

Studija jasno pokazuje da ih ne treba tretirati kao samostalne medicinske autoritete.

Pogledajte na vecernji.hr

Još nema komentara

Nema komentara. Prijavite se i budite prvi koji će dati svoje mišljenje.