Кинеската фирма за вештачка интелигенција DeepSeek го објави својот најнов „експериментален“ модел, за кој тврди дека е поефикасен во учењето и подобар во обработката на долги низи од текст отколку претходните итерации на големи јазични модели.
Компанијата со седиште во Хангжу го нарече DeepSeek-V3.2-Exp „среден чекор кон нашата архитектура од следната генерација“ во објава на форумот за програмери Hugging Face.
Архитектурата веројатно ќе биде најзначајното издание на производот на DeepSeek откако V3 и R1 ги шокираа Силиконската долина и технолошките инвеститори надвор од Кина.
Нова технологија и намалувања на цените
Моделот V3.2-Exp вклучува механизам наречен DeepSeek Sparse Attention, за кој кинеската компанија вели дека може да ги намали трошоците за пресметување и да ги подобри перформансите на некои видови модели. DeepSeek денес објави на X дека ја намалува цената на своите интерфејси за апликациски програми за „повеќе од 50 проценти“.
Иако е малку веројатно дека архитектурата од следната генерација на DeepSeek ќе ги потресе пазарите на начин на кој претходните верзии го направија тоа во јануари, сепак би можела да изврши значителен притисок врз домашните конкуренти како што е Qwen на Alibaba и американските конкуренти како OpenAI ако може да го повтори успехот на DeepSeek R1 и V3.
Ова би барало моделот да демонстрира високи перформанси, а воедно да бара само дел од ресурсите што конкурентите ги наплаќаат и трошат за обука на моделот.