오픈AI가 지난주 '보이스 엔진' 상표를 출원한 데 이어, 음성 복제가 가능한 인공지능(AI) 모델을 공개했다. 보이스 엔진은 15초 분량의 음성 클립을 입력하면 원래 목소리와 매우 유사한 자연스러운 음성을 생성해 준다는 설명이다.
29일 오픈AI가 홈페이지를 통해 AI 모델 '보이스 엔진'을 미리보기(프리뷰)로 공개했다.
<29일오픈AI가 공개한 보이스 엔진. 출처 오픈AI 홈페이지>
이 모델은 2년간 개발된 것으로, 이미 '챗GPT'의 음성 기능 및 소리 내어 읽기에 적용 중이다.
오픈AI는 이 기능이 장애가 있거나 교육용으로 유용하다고 강조하고 있다. 또 "신뢰할 수 있는 소규모 파트너 그룹"에만 이 기술을 제공했다고 밝혔다.
여기에는 교육 업체 에이지 오브 러닝, 비디오 번역 업체 헤이젠, 의료용 도구 업체 디마지, 언어 장애용 장치 업체 리복스, 의료 및 교육 장치 업체 라이프스판 등이 포함됐다.
하지만 일반 공개는 아직 결정하지 않았다. 동영상 생성 AI '소라'와 같이 각국 선거를 앞두고 악영향을 미칠지 모른다는 우려에 따른 것이다.
오픈AI는 “우리는 음성 함성 오용의 가능성이 있기 때문에 더 광범위한 배포에 대해 신중하고 정보에 입각한 접근 방식을 취하고 있다"라며 "다양한 의견 청취 및 소규모 테스트 결과를 바탕으로 기술을 대규모로 배포할지와 방법을 결정할 것”이라고 밝혔다.
실제로 올해 초에는 일레븐랩스의 음성 복제 기술을 사용해 조 바이든 대통령의 목소리를 복제한 사건이 발생, 연방 정부가 조사에 나섰다.
더불어 오픈AI는 음성 엔진 테스트에 참여하는 파트너는 무단 사칭을 금지하고 음성 제공자의 사전 동의를 요구하는 사용 정책을 준수해야 한다고 밝혔다. 또 생성된 복제 음성에는 귀에 들리지 않는 워터마크를 삽입한다고 밝혔다.
<박현종 객원기자>