스테이블 디퓨전(Stable Diffusion)과 미드저니(Midjourney) 같은 이미지 생성 AI는 프롬프트로 입력한 문장에 따라 이미지를 자동으로 생성할 수 있다는 게 화제가 되고 있다. 이런 가운데 아마존이 액정 디스플레이 탑재형 스마트 스피커인 아마존 에코쇼(Amazon Echo Show)에 음성을 프롬프트로 입력해 이야기, 영상, BGM을 그 자리에서 만들어내는 애니메이션 자동 생성 AI인 크리에이트 위드 알렉사(Create with Alexa)를 발표했다.
아이가 크리에이트 위드 알렉사를 탑재한 아마존 에코쇼에 “알렉사, 이야기를 만들어줘”라고 말을 걸면 나머지는 등장인물이나 설정 등을 음성 지시하는 것으로 이야기를 AI가 자동 생성한다. 시나리오 뿐 아니라 장면별 영상이나 BGM, 효과음도 모두 AI가 생성한다.
스토리 지시는 우주 탐험이나 수중, 마법의 숲 등 테마를 선택하면 된다. 그런 다음 캐릭터를 선택하고 이름을 지정한다. 마지막으로 이야기 분위기를 표현하는 형용사를 선택한다. 이렇게 하면 AI는 5개 장면으로 이뤄진 5∼10줄 정도 짧은 이야기를 만든다. 한 번 만든 캐릭터와 이야기는 개인 미디어 갤러리에 저장 가능하다. 아이가 좋아하는 이야기를 나중에 보거나 부모와 함께 즐길 수 있다.
크리에이트 위드 알렉사는 스토리 시나리오를 만드는 스토리 제너레이터와 시나리오에 맞는 화면을 생성하는 모델, BGM을 생성하는 모델로 이뤄져 있다. 스토리 생성기는 입력된 프롬프트를 받고 스토리명을 작성하는 플래너와 이 이름에서 스토리 본문을 생성하는 텍스트 생성기로 구성된다.
스토리 제너레이터는 인간 작가에게 쓴 이야기를 데이터세트로 학습한다. 이 데이터세트는 이야기마다 우주 탐험, 수중, 마법의 숲 등 태그에 라벨이 붙여지고 있다고 한다. 또 생성된 이야기는 2개 자연어 처리 모듈에 의해 대명사나 지시어가 보충되어 아이라도 알기 쉽게 조정된다고 한다. 동시에 등장인물이나 아이템 등 텍스트 내 오브젝트 관계를 나타내는 그래프가 자동 생성되어 자동 생성한 화상과 그래프를 기초로 이야기가 어울리는 장면이 만들어진다. 생성 이미지 대부분은 애니메이션이 된다.
또 이야기와 동시에 흐르는 BGM도 다양한 코드 진행, 리듬, 악기 편성을 포함한 라이브러리로부터 자동 생성된다. 더구나 아이가 텍스트를 읽는데 걸리는 시간을 계산해 이야기 분위기에 맞춰 BGM 길이나 인상이 결정된다고 한다. 더구나 공격적인 콘텐츠를 스크리닝해 제외하기 때문에 아이에게 과도하게 흥미로운 내용이 생성되지 않게 되고 크리에이트 위드 알렉사 사용에는 보호자 동의가 필요한 안전책이 마련되어 있다. 관련 내용은 이곳에서 확인할 수 있다.