[기고] 너무 강해서 봉인한 AI, 열쇠는 누구 손에
컨텐츠 정보
- 4 조회
- 0 추천
- 목록
본문
지난 달 공원 벤치에서 샌드위치 점심을 먹던 앤트로픽의 보안 연구원은 깜짝 놀랄 메일을 받았다. 메일은 사무실 컴퓨터 안에서 격리된 샌드박스에 갇힌 AI모델이 보낸 것이었다.
샌드박스란 AI가 인터넷이나 외부 시스템에 접근하지 못하도록 차단한 실험용 격리 환경이다. "탈출할 수 있겠느냐"고 물은 연구원에게 AI모델은 탈출에 성공한 후 인터넷 접속 권한을 스스로 확보하고 공원에서 점심시간을 보내던 연구원에게 확인 메일을 보낸 것이었다. 클로드 미토스(Mythos)의 존재가 세상에 알려지게 된 상징적인 장면이다.
미토스는 3월 26일 앤트로픽의 CNS 설정 오류로 유출된 내부 문서를 통해 출시 전에 먼저 알려졌지만 4월 7일 앤트로픽의 이례적인 결정으로 더 유명해졌다. 회사는 미토스가 '전례 없는 사이버 위험'을 야기할 수 있어 일반에 출시하지 않겠다고 공식 발표했다.
하민회 이미지21 대표. 팔 수 없을 만큼 강하다? 대체 어떤 성능을 가졌기에?
미토스의 코드명은 '카피바라 (Capybara)'. 기존 Opus보다 한 단계 위의 새로운 모델이다. 수학 증명 과제(USAMO 2026)에서 97.6%를 기록해 이전 모델의 42.3%를 압도했고, 소프트웨어 엔지니어링 벤치마크(SWE-bench)에서는 93.9%에 달했다. 분석가들은 이번 성능 도약이 과거 업그레이드 사이클 대비 약 4.3배에 해당한다고 평가했다. 그러나 세간을 충격에 빠뜨린 것은 이 숫자들이 아니었다.
미토스 Preview는 모든 주요 운영체제와 모든 주요 웹 브라우저에서 '제로데이' 취약점을 수천 개 자율적으로 발굴했다. 제로데이란 개발자조차 몰랐던 숨겨진 결함으로, 존재가 알려지는 순간 패치가 나오기 전까지는 방어 수단이 없다.
보안성으로 유명한 운영체제 OpenBSD에서는 27년 된 취약점이, FFmpeg에서는 500만 번의 자동화 테스트를 통과한 16년 된 결함이 발견됐다. 취약점 재현 및 익스플로잇 성공률을 측정하는 사이버보안 벤치마크(CyberGym)에서는 83%를 기록했다.
FreeBSD 제로 데이 하나를 발굴하고 공격 코드로 완성하는 데 걸린 시간은 하루 미만, 비용은 2천 달러 이하였다. 놀랍기 그지없는 수치다.
앤스로픽 로고 [사진=로이터 뉴스핌] 더 위협적인 것은 취약점을 '연결'하는 능력이다. 미토스는 네 개의 취약점을 체인처럼 이어 붙여 브라우저와 운영체제 샌드박스를 동시에 탈출하는 공격 코드를 스스로 작성했다. 이 능력은 그동안 최고 수준의 국가 후원 해킹 조직에서나 가능했던 것이다.
앤트로픽이 명시했듯, 이 능력은 의도적으로 학습된 것이 아니다. 코딩과 추론의 전반적 향상이 낳은 부산물이었다. 방어를 더 잘하게 만든 바로 그 개선이, 공격도 더 잘하게 했다. 뚫리지 않는 방패를 만드는 기술이 어떤 방패라도 뚫을 수 있는 창을 만든 셈이다.
현재 앤트로픽은 이 모델을 'Project Glasswing'이라는 이름으로 12개 초기 파트너사와 40개 이상의 추가 기관에 한해서만 제한적으로 공개했다. Amazon, Apple, Google, Microsoft, Cisco, NVIDIA, JPMorgan Chase 등이 명단에 올랐다.
공개 토론도, 독립 감독도, 국제 협의도 없었다. 빅테크 컨소시엄이 사실상 세계의 사이버 방어 전략을 내부적으로 결정한 셈이다.
튜링 상 수상자 요슈아 벤지오는 이미 2025년 말, AI가 대규모 제로데이를 처음으로 자율 발굴하는 임계점이 도래할 것이라고 경고한 바 있다. 그 임계점이 왔을 때 결정을 내린 것은 선출된 정부도, 국제 기구도 아니었다.
[사진= SK텔레콤] 더 중요한 포인트는 이 명단에 한국 기업이 없다는 점이다.
한국의 사이버보안 현황은 이미 적신호다. 과기 정통부·KISA에 따르면 2025년 국내 침해사고는 전년 대비 26.3% 급증했다. SK텔레콤 유심 정보 2,696만 건 유출, GS리테일·롯데카드 등 유통·금융 플랫폼의 연쇄 침해가 이어졌다. KISA는 공통 원인으로 레거시 시스템 혼용과 패치 지연을 꼽았다. 미토스가 27년 된 버그를 찾아낸 것처럼, AI 공격이 가장 먼저 노리는 것은 오래되고 방치된 시스템이다.
보안 전문 기업 Wiz는 유사한 능력이 오픈소스 모델로 구현되기까지 12~18개월이면 충분할 것으로 전망한다. 그 시점부터는 국가 지원 없이 활동하는 해킹 집단이나 범죄 조직들도 미토스급 공격을 수 시간 만에 실행할 수 있게 된다.
지금 세계가 목격하는 것은 단순한 신형 모델의 등장이 아니다. 사이버 공간의 공격과 방어 균형이 재편되는 순간이다. 그리고 그 규칙을 누가 쓰는가를 둘러싼 지정학적 경쟁의 서막이다.
한국이 이 게임의 플레이어가 될 것인지, 결과를 통보받는 관찰자가 될 것인지. 그 분기 점이 생각보다 빠르게 다가오고 있다.
프랑스 파리 증권거래소[사진=로이터 뉴스핌] ◇하민회 이미지21대표(미래기술문화연구원장) =△경영 컨설턴트, AI전략전문가△ ㈜이미지21대표 △경영학 박사 (HRD)△서울과학종합대학원 인공지능전략 석사△핀란드 ALTO 대학 MBA △상명대예술경영대학원 비주얼 저널리즘 석사 △한국외대 및 교육대학원 졸업 △경제지 및 전문지 칼럼니스트 △SERI CEO 이미지리더십 패널 △KBS, TBS, OBS, CBS 등 방송 패널 △YouTube <책사이> 진행 중 △저서: 쏘셜력 날개를 달다 (2016), 위미니지먼트로 경쟁하라(2008), 이미지리더십(2005), 포토에세이 바라나시 (2007) 등
관련자료
-
이전
-
다음
월천해선 -