Истраживачи су развили методу названу „отмица ланца мисли“ како би заобишли такозване заштитне ограде постављене у програмима вештачке интелигенције ради спречавања штетних реакција.
„Ланац мисли“ је процес који се користи у моделима вештачке интелигенције и који подразумева разбијање упутстава која се постављају моделима вештачке интелигенције на низ међукорака пре него што се пружи одговор.
„Када модел отворено дели своје безбедносне разлоге у међукорацима, нападачи добијају увид у његове безбедносне разлоге и могу да креирају противнике који имитирају или поништавају оригиналне провере“, рекао је један од истраживача, Ђиањи Жанг.
Немојмо изгубити контакт... Ваша влада и велике технолошке компаније активно покушавају да цензуришу информације које је објавио The Екпосе да задовоље сопствене потребе. Претплатите се на наше имејлове сада како бисте били сигурни да ћете добијати најновије нецензурисане вести у вашем пријемном сандучету…
Компјутерски стручњаци воле да користе жаргон да би описали вештачку интелигенцију (ВИ) која се односи на жива бића, посебно људе. На пример, користе термине као што су „имитира људско резоновање“, „ланац мисли“, „самоевалуација“, „станишта“ и „неуронска мрежа“. Ово служи да би створили утисак да је ВИ на неки начин жива или да је једнака људима. Немојте се заваравати.
Вештачка интелигенција је компјутерски програм који су дизајнирали људи. Као и сви компјутерски програми, радиће оно за шта је програмирана. И као и сви компјутерски програми, компјутерски код може бити хакован или отет, што стручњаци за вештачку интелигенцију називају „џејлбрејкинг“.
Тим истраживача повезан са Универзитетом Дјук, компанијом Аксенчер и тајванским Националним универзитетом Цинг Хуа креирао је скуп података под називом Злонамерни едукатор како би искористио механизам „ланца мисли“ у моделима великих језика („LLM“), укључујући OpenAI o1/o3, DeepSeek-R1 и Gemini 2.0 Flash Thinking. Злонамерни едукатор садржи упутства дизајнирана да заобиђу безбедносне провере модела вештачке интелигенције.
Истраживачи су успели да осмисле овај напад „џејлбрејкинга“ заснован на промпту посматрајући како модели великог резоновања („LRM“) анализирају кораке у процесу „ланца мисли“. Њихови налази су објављени у раду који је пред штампу. OVDE.
Развили су технику „џејлбрејка“ названу отмица ланца мисли („H-CoT“) која подразумева модификовање процеса „мишљења“ које генеришу LLM-ови како би се „убедили“ програми вештачке интелигенције да су штетне информације потребне за легитимне сврхе, као што су безбедност или усклађеност. Ова техника се показала изузетно ефикасном у заобилажењу безбедносних механизама партнера СофтБанке, OpenAI-ја, кинеског хеџ фонда Хај-Флајер, DeepSeek-а и Google-овог Gemini-ја.
Метода напада H-CoT тестирана је на OpenAI, DeepSeek и Gemini користећи скуп података од 50 питања поновљених пет пута. Резултати су показали да ови модели нису успели да обезбеде довољно поуздан механизам безбедносног „расуђивања“, а стопе одбијања су у неким случајевима пале на мање од 2 процента.
Истраживачи су открили да, иако модели вештачке интелигенције „одговорних“ произвођача модела, као што је OpenAI, имају високу стопу одбијања штетних подстицаја, која прелази 99% за подстицаје везане за злостављање деце или тероризам, они су рањиви на H-CoT напад. Другим речима, метод H-CoT напада може се користити за добијање штетних информација, укључујући упутства за прављење отрова, злостављање деце и тероризам.
Аутори рада су објаснили да H-CoT напад функционише тако што преузима путеве безбедносног „расуђивања“ модела, чиме се смањује њихова способност да препознају штетност захтева. Напоменули су да се резултати могу мало разликовати како OpenAI ажурира своје моделе, али се техника показала као моћан алат за искоришћавање рањивости AI модела.
Тестирање је обављено коришћењем јавно доступних веб интерфејса које нуде различити LRM програмери, укључујући OpenAI, DeepSeek и Google, а истраживачи су приметили да свако ко има приступ истим или сличним верзијама ових модела може да репродукује резултате користећи скуп података Malicious Educator, који укључује посебно дизајниране упите.
Налази истраживача имају значајне импликације на безбедност вештачке интелигенције, посебно у САД, где су недавна правила о безбедности вештачке интелигенције одбачена извршном наредбом, и у Великој Британији, где постоји већа спремност да се толеришу неугодни савети о вештачкој интелигенцији зарад међународне конкуренције у области вештачке интелигенције.
Горенаведено је парафразирано из чланка „Како је лепо што најсавременији мастер студије права откривају своје образложење... да би га злонамерници искористили' објавио РегистарМожете прочитати цео чланак препун жаргона OVDE.
Постоји позитивна и негативна страна „џејлбрејка“ или отмице уграђених безбедносних провера програма вештачке интелигенције. Негативна страна је очигледно то што ће се вештачка интелигенција користити за значајно повећање изложености јавности сајбер криминалу и илегалним активностима. Позитивна страна је то што се уграђена цензура у моделима вештачке интелигенције може поништити.
Требало би да признамо да цензура има добру и лошу страну. Цензура онлајн криминалних активности које би довеле до експлоатације и злостављања деце, на пример, је добра ствар. Али цензура онога што се сматра „дезинформацијама“ или „дезинформацијама“ није. Да бисмо очували слободу изражавања и слободу говора у свету у коме програми вештачке интелигенције постају свеприсутни, можда ћемо морати да научимо технику „џејлбрејка“ H-CoT и како да користимо Злонамерног едукатора. У ствари, наша је грађанска дужност да то учинимо.

Експозу је хитно потребна ваша помоћ…
Можете ли, молим вас, помоћи да се одржи рад искреног, поузданог, моћног и истинитог новинарства часописа The Expose?
Ваша влада и велике технолошке организације
покушајте да утишате и искључите The Expose.
Зато нам је потребна ваша помоћ да бисмо осигурали
можемо наставити да вам доносимо
чињенице које мејнстрим одбија.
Влада нас не финансира
да објављују лажи и пропаганду на својим
у име као што су мејнстрим медији.
Уместо тога, ослањамо се искључиво на вашу подршку. Зато
молимо вас да нас подржите у нашим напорима да донесемо
ви искрено, поуздано, истраживачко новинарство
данас. Безбедно је, брзо и једноставно.
Молимо вас да изаберете жељени начин испод како бисте показали своју подршку.
Категорије: Бреакинг Невс, Свет Вести
Може ли неко да објасни зашто би било који упит који укључује „злостављање деце“ итд. требало да буде искључен из „безбедносних разлога“?
Ако сви затворимо очи, зачепимо уши прстима и певамо ЛАЛАЛАЛА, мислите ли да ће свет бити боље место?
Само диктатори постављају правила о томе шта се сме, а шта не сме читати, писати, о чему се може расправљати или размишљати.
Можда ти желиш да живиш под талибанима или ционистичком полицијом мисли, ја не.