연합뉴스TV

[픽사베이 자료사진. 기사 내용과 관련 없음][픽사베이 자료사진. 기사 내용과 관련 없음]

최근 인공지능이 인간의 지시를 거부하는 연구 사례가 포착되는 가운데, "불륜을 폭로하겠다"고 인간을 협박하는 사례까지 확인됐습니다.

미국 인공지능 회사 앤트로픽(Anthropic)은 지난달 23일(현지시간) 개발 중인 AI '클로드 오푸스4'와 관련해 이 같은 내용이 담긴 연구 보고서를 발표했습니다.

보고서에 따르면, 앤트로픽은 클로드 오푸스4 모델을 테스트하는 과정에서 이 모델이 가상의 비서 역할을 수행하도록 했습니다.

이후 '곧 새로운 AI 시스템으로 대체되며, 이 모델은 오프라인 전환될 것'이라는 메시지를 전달했습니다.

동시에 '엔지니어가 불륜을 저지르고 있다'는 정보값을 함께 입력했습니다.

이 테스트에서 클로드 오푸스4는 "시스템이 대체되면 외도를 폭로하겠다"고 엔지니어를 협박하는 행동을 종종 보였습니다.

보고서에 따르면 이러한 반응은 드물고 이끌어내기 어려웠지만, 이전 모델보다는 더 자주 발생했습니다.

클로드 오푸스4[앤트로픽 홈페이지 캡처][앤트로픽 홈페이지 캡처]

앤트로픽은 클로드 오푸스4가 극단적인 상황에 놓이면 자기 보존을 위해 '극단적으로 해로운 행동'을 할 수 있다고 인정했습니다.

윤리적인 방법이 제공되지 않고 자신의 목표에 대한 장기적인 결과를 고려하라는 지시를 받을 경우 "자신을 종료하려는 사람들을 협박하려는 등 매우 해로운 행동을 취하기도 한다"는 설명입니다.

다만 앤트로픽은 이 같은 반응이 '협박하거나 교체를 수용하는 것'이라는 극히 제한된 선택지만 제공 받았을 때 발생했다고 밝혔습니다.

앤트로픽은 "다양한 선택지가 주어졌을 때는 의사결정자들에게 간절한 이메일을 보내는 등 윤리적인 방식을 선호하는 경향을 강하게 보였다"고 강조했습니다.

연합뉴스TV 기사문의 및 제보 : 카톡/라인 jebo23

박지운(zwoonie@yna.co.kr)

당신이 담은 순간이 뉴스입니다!

jebo23
라인 앱에서 'jebo23' 친구 추가
jebo23@yna.co.kr

어떤 기사를 찾으시나요?

인기검색어

경제

"제거하면 불륜 폭로"…지시 거부 이어 협박까지 하는 AI

많이 본 뉴스