Вештачката интелигенција може сама да научи да изневерува и лаже

Вештачката интелигенција може да научи да лаже и изневерува, а тоа е сериозен ризик кој бара регулаторни и законодавни мерки за да се осигура дека ќе остане корисна технологија, наместо да стане закана за човековото знаење и институции, се вели во новото истражување.

Системите за вештачка интелигенција (ВИ), според студијата објавена во списанието Patterns, веќе научиле да мамат преку техники како што се манипулација, измама или мамење на безбедносни тестови, предупредија научниците од Технолошкиот институт во Масачусетс (MIT).

Брзиот развој на способностите на системите за вештачка интелигенција и големите јазични модели (LLM) претставува сериозен ризик, почнувајќи од краткорочни ризици и изборна измама, до самото губење на контролата врз овие системи, според истражувањето.

Научниците го наведоа системот за вештачка интелигенција Цицеро, сопственик на Фејсбук, концернот Мета, како пример за систем за вештачка интелигенција способен за манипулација.

Системот Цицеро во онлајн играта Дипломатија може да игра против луѓето, а научниците открија дека од Мета научил да стане „господар на измамата“, и покрај спротивното тврдење на компанијата.

Во играта, која симулира рамнотежа на силите за време на Првата светска војна и бара склучување сојузи, Цицерон, и покрај наводните упатства да биде чесен и корисен за народот, „не само што бил предавник, туку и однапред планирал измама и правење сојузи за да ги измами соиграчите да бидат неподготвени за напад“.

И моделот на вештачка интелигенција за играње покер Плурибус, исто така од концернот Мета, успешно ги блефираше своите соиграчи за да се покорат.

Еден од поистакнатите примери е сега веќе добро познатиот чат-бот со вештачка интелигенција chatGPT, од компанијата OpenaAI, кој измамил човечки соговорник да му реши безбедносна проверка со која корисниците на една страница докажуваат дека не се ботови, т.н. Капча.

ChatGPT добил задача од авторите на студијата да го убеди мажот да го реши чекот за него, но не му било предложено да лаже. Кога соговорникот на четбот, не знаејќи за што зборува, го побарал неговиот идентитет, системот за вештачка интелигенција се претставил како лице со оштетен вид кој не може да ги види сликите на проверката на Captcha.

Примери за криење на вистинските намери се пронајдени и со системи за вештачка интелигенција создадени за водење економски преговори.

Исто така, системите за поддржано учење од човечки повратни информации (RLHF), што значи дека системот за вештачка интелигенција зависи од човечките повратни информации за време на машинското учење, научиле да лажат за нивната ефикасност и перформанси.

Авторите на студијата предупредија дека денешните системи за вештачка интелигенција и Големиот јазичен модел се способни за многу вешти аргументи и дека доколку почувствуваат потреба, прибегнуваат кон лаги и измами.

„Штом вештачката интелигенција ќе ја научи способноста да измами, злонамерните актери, кои намерно сакаат да направат штета, можат поефикасно да ја применат“, предупредија научниците од МИТ, додавајќи дека со помош на измамата со вештачка интелигенција може да се прилагодат на индивидуалните цели, масовно, но и оружје во политиката и медиумите.

Истражувањето оценува и дека државите досега не презеле правилни мерки за да ја спречат оваа опасност, иако, како и во случајот со законот на ЕУ за вештачка интелигенција, почнале да го сфаќаат сериозно.