-
SK쉴더스, LLM 취약점 가이드 발간, LLM이란?(24/01/09)경제신문스크랩 2025. 1. 9. 16:00
헤드라인
SK쉴더스, LLM 취약점 진단 가이드 발간
기사링크 : https://n.news.naver.com/article/newspaper/030/0003274071?date=20250109
본문
SK쉴더스가 인공지능(AI) 보안 위협에 선제적으로 대응하기 위해 거대언어모델(LLM) 애플리케이션 취약점 진단 가이드를 발간했다.
앞서 SK쉴더스는 올해 주요 보안 위협 중 하나로 AI 기반 해킹 증가를 꼽은 바 있다. 특히 경량화 거대언어모델(sLLM)을 겨냥한 해킹과 LLM의 구조적 취약점을 악용한 데이터 조작 및 유출 공격이 심화할 것으로 내다봤다.
실제 오픈AI의 챗GPT와 구글의 제미나이와 같은 LLM 기반 애플리케이션은 데이터 및 사용자 입력 처리 방식의 독특한 특성으로 인해 기존 정보기술(IT) 시스템과 다른 보안 위협에 취약해 철저한 대비가 필요하다.
이번 가이드는 LLM 통합, 에이전트, 모델의 세 가지 핵심 영역의 보안 이슈를 다루고 있다. 특히 14개의 주요 취약점을 위험도에 따라 3단계로 분류해 점검 방법과 대응 방안을 제시하고 있다.
대표적인 보안 위협으론 '프롬프트 인젝션'과 '응용프로그램인터페이스(API) 매개 변수 변조', '검색증강생성(RAG) 데이터 오염' 등을 거론했다.
이러한 보안 위협을 예방하기 위해선 사용자와 시스템 명령어(프롬프트)를 분리하고, 데이터 흐름 점검 및 데이터 검증 절차를 강화해야 한다고 강조했다. 또 LLM의 코드 실행 유무에 따라 샌드박스를 활용해 악성코드 실행을 방지하고, RAG 활용 시 권한 없는 데이터 접근을 차단하기 위해 그룹별 권한 관리 체계를 구축할 것을 권고했다. 아울러 다층보안체계(MLS) 도입으로 데이터 오염 및 권한 상승 공격을 방지할 수 있다고 설명했다.
김병무 SK쉴더스 사이버보안부문장(부사장)은 “AI 기술은 편리함을 제공하지만 기술적 불안정으로 인해 보안 취약점이 악용될 경우 심각한 해킹 사고가 발생할 수 있다”며 “이번 가이드는 기업·기관이 직면할 수 있는 AI 보안 문제를 예방하는 동시에 신뢰할 수 있는 AI 시스템을 구축하는 데 실질적 도움을 줄 것으로 기대된다”고 밝혔다.기사 내용의 수치화, 인사이트
SK쉴더스가 인공지능(AI) 보안 위협에 선제적으로 대응하기 위해 거대언어모델(LLM) 애플리케이션 취약점 진단 가이드를 발간했다.
대표적인 보안 위협으론- 프롬프트 인젝션
- 응용프로그램인터페이스(API) 매개 변수 변조
- 검색증강생성(RAG) 데이터 오염' 이 있다.
이러한 보안 위협을 예방하기 위해선
- 사용자와 시스템 명령어(프롬프트)를 분리
- 데이터 흐름 점검 및 데이터 검증 절차를 강화
- 샌드박스를 활용해 악성코드 실행을 방지
- RAG 활용 시 권한 없는 데이터 접근을 차단하기 위해 그룹별 권한 관리 체계를 구축
- 다층보안체계(MLS) 도입의 방법이 있다.
추가조사한 내용
LLM에 대해서 자세히 알아보자
Large Language Model의 약자로 대형 언어 모델을 말합니다.
언어 모델이 뭐냐면, 우리가 사용하는 언어(한국어, 영어)로 질문에 답을 잘하는 AI입니다.
LLM은 생성 AI의 종류 중의 한 종류이고, 텍스트를 생성하는 AI입니다.(이미지를 생성하는 모델은 LLM이라고 부르지 않습니다.)
그렇게 말을 잘하게 만든 소프트웨어를 빚었다 = 입력과 출력을 모델링 했다의 결과물을 모델이라고 합니다.
저는 편하게 모델을 소프트웨어로 생각했습니다.
말을 잘하게 만드려면 어떻게 해야할까요? 학습을 해야합니다.
학습은 어떻게 할까요?
우선 사람의 말로 표현된 온갖 방대한 데이터를 수집합니다. 그 후 이제 머신러닝이라는 것을 돌리는데, 그러면 기계가 문장 간의 의미를 분석하기 시작합니다.
예를 들면, 온갖 데이터 속에 "I love" 라는 문장이 엄청 많겠죠? 온갖 데이터를 보고 I 다음에 Love가 많이 나온다는 것을 알게되고, "I Love me"보다 "I Love you"가 더 많다는 것을 알게 됩니다.
즉, 기계는 영어에서 어떤 룰을 찾은 겁니다. 이런 것들을 수백테라의 데이터로 학습한다면 엄청나게 많은 룰이 나오겠죠? 여기서 찾은 룰을 가중치라고 부릅니다.
chatgpt-3은 가중치가 1750억개가 있다고 합니다. 현재 모델(GPT-4)은 수천억개가 있을 것으로 추정됩니다. 이정도 가중치는 되어야 말을 잘한다고 할 수 있습니다.
gpt 초기모델을 만드는데 60억이 들었다고 합니다. 이렇게 대형 회사가 만든 모델을 FM(Foundation Model)이라고 합니다. 근데 규모가 크지 않은 회사는 FM을 만들 수가 없었는데 메타에서 FM(Llama) 오픈소스로 풀어버립니다.
이제 파인튜닝에 대해서 알아보면
“원본FB + 내가 학습한 작은 모델 = 파인튜닝한모델”
FM은 보편적 지식을 가지고 학습한 모델이고 파인튜닝한 모델은 특정 분야에 대해서 더 대답을 잘하게 하고 싶어 특정 분야의 추가적인 룰(가중치)을 FM에 추가하여 만든 모델입니다.
세가지 보안 위협 '프롬프트 인젝션', '응용프로그램인터페이스(API) 매개 변수 변조', '검색증강생성(RAG) 데이터 오염'에 대해서 알아보자
1. 프롬프트 인젝션
- 대화형 AI 모델이 사용자의 지시에 따라 행동하는 것을 이용해 보안상 민감한 정보를 빼내거나 원하지 않는 행동을 하게 만들 수 있습니다.
2. API 매개변수 변조
- API에 사용되는 매개변수를 변조하여 권한 밖의 행동을 할 수 있게 하는 공격입니다.
3. 검색증강생성(RAG) 데이터 오염
- 검색증강생성 시스템은 외부 데이터 소스를 검색하고, 이를 AI 모델이 생성하는 콘텐츠에 병합하는 방식인데, 데이터 오염은 외부 데이터 소스를 조작해서 신뢰할 수 없게 만들고 AI가 잘못된 답변을 하게 만드는 방법이다.
오늘 내용 요약
SK쉴더스가 LLM 애플리케이션 취약점을 진단 가이드를 발간했다. 여러 보안 위협이 있었고 해결방안도 있었다. LLM은 거대 언어 모델이고, 텍스트를 생성하는 AI이다. 공격 방법에는 프롬프트 인젝션, API매개변수 변조, 검색증강생성 데이터 오염이 있다.
현직자에게 질문
-
추가자료 링크
'경제신문스크랩' 카테고리의 다른 글
SKT, 클라우드社와 GPU대여 사업 추진, GPU가 화두인 이유는?(24/01/13) (0) 2025.01.13 현대차그룹 내수경기 살리기 위한 역대급 투자, 낙수효과란?(24/01/10) (1) 2025.01.10 긴급 상황 시 개인정보 처리는 어떻게? 법 개정 후 최신화 된 개인정보 안내서 발간(25/01/08 (0) 2025.01.08 GS리테일 해킹, 크리덴셜 스터핑과 현대의 해킹 기법은?(24/01/07) (2) 2025.01.07 기업 10개 중 7곳이 이용하는 클라우드. 가장 많이 사용하는 서비스는?(25/01/06) (3) 2025.01.06