카카오, 생성형 AI 안전 확보 위한 Safeguard 모델 3종 오픈

2025년 05월 27일

카카오 가 생성형 인공지능(AI) 서비스의 안전성과 신뢰성을 높이기 위해 자체 개발한 AI 가드레일 모델 ‘Kanana Safeguard(카나나 세이프가드)’ 3종을 오픈소스로 공개했다.

국내 기업 중 처음으로 AI 안전성 검증 모델을 무료로 배포하는 사례다.

카카오가 공개한 Kanana Safeguard는 자사 언어모델 ‘Kanana(카나나)’를 기반으로 한 AI 검증 모델로, 한국어와 한국 문화에 특화된 데이터셋을 활용해 정밀한 유해성 탐지 능력을 갖춘 것이 특징이다.

유해 콘텐츠의 검출 성능을 나타내는 F1 스코어 기준으로도 글로벌 AI 모델 대비 우수한 한국어 성능을 기록했다.

이번에 오픈소스로 제공되는 3종 모델은 다음과 같다. △혐오, 괴롭힘, 성적 콘텐츠 등 유해한 발화를 탐지하는 ‘Kanana Safeguard’ △개인정보 유출이나 저작권 침해 등 법적 위험 요청을 차단하는 ‘Kanana Safeguard-Siren’ △AI 시스템을 악용하려는 시도를 탐지하는 ‘Kanana Safeguard-Prompt’다.

세 모델은 모두 글로벌 오픈소스 플랫폼 허깅페이스를 통해 다운로드 받을 수 있다.

카카오는 해당 모델에 상업적 이용과 수정, 재배포가 가능한 아파치 2.0 라이선스를 적용해 누구나 자유롭게 사용할 수 있도록 했다.

향후 정기적인 업데이트를 통해 고도화된 검증 기능도 선보일 계획이다.

카카오 김경훈 AI 세이프티 리더는 “생성형 AI의 등장 이래 기술의 발전과 더불어 AI 윤리와 안전성에 대한 중요성이 국내외에서 점차 부각되고 있다”며 “책임감 있는 AI 구축에 대한 인식을 널리 확산시키고 사회적 가치를 고려한 기술 개발이 이어질 수 있도록 선제 대응을 이어갈 계획”이라고 밝혔다.

다른기사보기

배동현 (grace8366@sabanamedia.com) 기사제보

AI 검증 AI 안전성 AI 윤리 Kanana 생성형 AI 오픈소스 AI 카카오 카카오 Safeguard 한국어 AI 모델 허깅페이스