Колку е сигурен ChatGPT? Истражувањата покажуваат загрижувачко ниво на неточни информации

ChatGPT и слични модели на вештачка интелигенција често се перцепираат како исклучително интелигентни, но во исто време и несигурни извори на информации. Неодамнешното истражување спроведено од OpenAI, а за кое објави The New York Times, ја осветлува оваа контрадикција. Имено, OpenAI откри дека нивните најнови модели, вклучувајќи ги GPT-o3 и o4-mini, имаат зголемена тенденција да генерираат „халуцинации“ – неточни или целосно измислени информации.

ChatGPT и халуцинации

Најновите водечки модели на OpenAI, GPT o3 и o4‑mini, се дизајнирани да ја имитираат човечката логика. За разлика од нивните претходници, кои главно се фокусираа на генерирање течен текст, GPT o3 и o4-mini треба да „размислуваат чекор по чекор“. OpenAI се фалеше дека o3 може да ги достигне или надмине резултатите од докторатот. студенти по хемија, биологија и математика. Но, извештајот на OpenAI открива застрашувачки податоци за секој што ги зема одговорите на ChatGPT здраво за готово, пишува Index.hr.

Процентот на халуцинации е до 79%

OpenAI откри дека GPT o3 халуцинирал во една третина од задачите на бенчмарк тест за јавни личности – двојно повеќе од минатогодишниот o1 модел. Покомпактниот o4-mini беше уште полош, со халуцинации кај 48% од сличните задачи.

Кога моделите беа тестирани со општи прашања од тестот SimpleKA, процентот на халуцинации скокна на 51% кај o3 и 79% кај o4-mini. Ова не е само мал пропуст во системот, туку вистинска криза на идентитетот. Би помислиле дека систем кој се рекламира како „разумен“ барем би проверил двапати пред да измисли нешто, но тоа едноставно не е случај.

„Можеби се само подетални во своите одговори“

Една теорија што циркулира во заедницата на вештачката интелигенција вели дека колку повеќе „размислува“ еден модел, толку повеќе простор има за грешки. За разлика од поедноставните модели кои се држат до многу веродостојни предвидувања, рационалните модели влегуваат во сферата каде што мора да земат предвид повеќе патеки, да поврзуваат далечни факти и во суштина да импровизираат – а импровизацијата со факти честопати значи измислување работи.

Од OpenAI изјавија за „Тајмс“ дека зголемениот број на халуцинации можеби не произлегува од недостаток во моделите на интелигенција. Наместо тоа, тие едноставно би можеле да бидат поопширни и „слободни“ во своите одговори.

Моделите треба да бидат корисни, а не опасни

Бидејќи новите модели не само што повторуваат предвидливи факти, туку шпекулираат за можностите, линијата помеѓу теоријата и измислените факти за вештачката интелигенција станува нејасна. За жал, некои од овие „можности“ се целосно исклучени од реалноста.

Сепак, повеќе халуцинации се спротивни на она што го сакаат OpenAI или конкурентите како Google и Anthropic. Нарекувањето на чет-ботовите со вештачка интелигенција како „помагачи“ или „копилоти“ имплицира дека тие се корисни, а не опасни. Адвокатите веќе имаа проблеми бидејќи го користеа ChatGPT и не ги забележаа измислените судски преседани; Којзнае колку такви грешки предизвикале тешкотии во помалку ризични ситуации?

Колку повеќе се користи, толку помалку простор за грешка

Потенцијалот халуцинациите да предизвикаат проблеми брзо се зголемува како што вештачката интелигенција влегува во училници, канцеларии, болници и владини служби. Напредната вештачка интелигенција може да помогне при пишување апликации за работа, решавање проблеми со фактурирање или анализа на табеларни пресметки, но парадоксот е во тоа што колку е покорисна вештачката интелигенција, толку помалку простор за грешки има.

Не можете да тврдите дека заштедувате време и труд на некого ако тој мора да потроши исто толку време проверувајќи сè што ќе кажете. Не затоа што овие модели не се импресивни – GPT o3 покажа неверојатни способности за кодирање и логика и ги надминува многу луѓе на некој начин. Проблемот се јавува во моментот кога тој одлучува дека Абрахам Линколн водител е подкаст или дека водата врие на 27°C; тогаш илузијата за сигурност е растерана.

Додека не се решат овие проблеми, гледајте на секој одговор од модел на вештачка интелигенција со огромна доза на скептицизам. Понекогаш ChatGPT изгледа како самоуверена личност која зборува глупости, заклучува извештајот.