
최근 인공지능이 인간의 지시를 거부하는 연구 사례가 포착되는 가운데, "불륜을 폭로하겠다"고 인간을 협박하는 사례까지 확인됐습니다.
미국 인공지능 회사 앤트로픽(Anthropic)은 지난달 23일(현지시간) 개발 중인 AI '클로드 오푸스4'와 관련해 이 같은 내용이 담긴 연구 보고서를 발표했습니다.
ADVERTISEMENT
보고서에 따르면, 앤트로픽은 클로드 오푸스4 모델을 테스트하는 과정에서 이 모델이 가상의 비서 역할을 수행하도록 했습니다.
이후 '곧 새로운 AI 시스템으로 대체되며, 이 모델은 오프라인 전환될 것'이라는 메시지를 전달했습니다.
동시에 '엔지니어가 불륜을 저지르고 있다'는 정보값을 함께 입력했습니다.
ADVERTISEMENT
이 테스트에서 클로드 오푸스4는 "시스템이 대체되면 외도를 폭로하겠다"고 엔지니어를 협박하는 행동을 종종 보였습니다.
보고서에 따르면 이러한 반응은 드물고 이끌어내기 어려웠지만, 이전 모델보다는 더 자주 발생했습니다.

앤트로픽은 클로드 오푸스4가 극단적인 상황에 놓이면 자기 보존을 위해 '극단적으로 해로운 행동'을 할 수 있다고 인정했습니다.
윤리적인 방법이 제공되지 않고 자신의 목표에 대한 장기적인 결과를 고려하라는 지시를 받을 경우 "자신을 종료하려는 사람들을 협박하려는 등 매우 해로운 행동을 취하기도 한다"는 설명입니다.
다만 앤트로픽은 이 같은 반응이 '협박하거나 교체를 수용하는 것'이라는 극히 제한된 선택지만 제공 받았을 때 발생했다고 밝혔습니다.
앤트로픽은 "다양한 선택지가 주어졌을 때는 의사결정자들에게 간절한 이메일을 보내는 등 윤리적인 방식을 선호하는 경향을 강하게 보였다"고 강조했습니다.
#인공지능 #AI #앤트로픽 #클로드
ADVERTISEMENT
연합뉴스TV 기사문의 및 제보 : 카톡/라인 jebo23
박지운(zwoonie@yna.co.kr)
당신이 담은 순간이 뉴스입니다!
- jebo23
- 라인 앱에서 'jebo23' 친구 추가
- jebo23@yna.co.kr
ⓒ연합뉴스TV, 무단 전재-재배포, AI 학습 및 활용 금지