널리 사용되는 이미지 생성 AI인 스테이블 디퓨전(Stable Diffusion)은 컨트롤넷(ControlNet)을 결합해 포즈 추출과 포즈 지정 생성을 실행하거나 IP-어댑터(IP-Adapter)를 결합해 유사 이미지를 생성하는 등 확장 기능을 사용해 다양한 작업을 실행할 수 있다. 옴니젠(OmniGen)은 컨트롤넷 등 확장 기능 없이 단일 모델만으로 다양한 생성 작업을 실행할 수 있도록 개발된 멀티모달 이미지 생성 AI로 단독으로 이미지 생성, 포즈 추출, 포즈 지정 생성, 이미지 내 물체 교체, 피사체 지정 생성 등 작업을 실행할 수 있다.
옴니젠 기능은 일반적인 이미지 생성 AI처럼 텍스트로부터 이미지 생성이 가능할 뿐만 아니라 이미지 내 음료 변경, 이미지 내 인물 포즈 추출, 포즈를 지정해 이미지 생성, 이미지 2장에서 피사체를 1명씩 지정해 2인조 이미지를 생성하는 등 작업이 가능하다.
작업 예시를 보면 의자에 앉은 여성 이미지를 입력하고 같은 여성이 등장하는 군중 속에서 손을 흔드는 이미지를 생성한다. 남성 3명이 등장하는 이미지에서 빨간 셔츠를 입은 남성을 추출해 다른 이미지를 생성할 수도 있다. 왼쪽 남성이 아닌 빨간 셔츠를 입은 남성이라는 프롬프트로 피사체를 지정할 수 있다는 것이 특징적이다.
서로 다른 이미지에 포함된 피사체를 1명씩 선택해 다른 이미지를 생성할 수도 있다. 연장자 여성이라는 주관적 판단이 필요한 지시가 포함되어 있어도 정확하게 실행할 수 있다.
옴니젠은 인물이 포함된 이미지 외에도 다룰 수 있다. 꽃을 다른 곳 내 가장 밝은 색상 꽃병에 넣어 공장 안에 배치된 금속 테이블 위에 놓는 지시를 실행할 수도 있다. 옴니젠은 이곳에서 실제로 사용해볼 수 있으며 실행에 필요한 코드는 여기에 공개되어 있다. 관련 내용은 이곳에서 확인할 수 있다.