테크레시피

생성형AI 문제점 보여주는 바나나 출력

스테이블 디퓨전과 챗GPT 등 생성형 AI가 등장해 누구나 쉽게 문장이나 이미지를 작성할 수 있게 됐다. 보도에 따르면 다니엘 훅 디지털사이언스 CEO가 이미지 생성 AI를 사용했을 때 접한 바나나 1개 문제로부터 생성형 AI가 안고 있는 문제를 언급하고 있다.

바나나를 좋아하는 그는 이전부터 친구와 바나나 브랜딩에 더 바나나를 활용해야 한다고 농담처럼 말해왔다. 그리고 자동 생성 AI인 미드저니가 등장한 시기 이상적인 바나라 이미지를 생성하는 절호의 기회가 아닐까 생각했다고 한다.

그는 미드저니에서 회색 배경에 그림자가 있는 바나나 1개(A single banana casting a shadow on a grey background)라는 프롬프트를 통해 이미지를 생성했다. 그런데 생성된 바나나는 2개 1세트로 그려져 있었고 1개가 아니었다고 한다. 그래서 그는 1개만 생성하기 위한 프롬프트(a perfect ripe banana on a pure grey background casting a light shadow, hyperrealistic banana alone on a pure grey background casting a light shadow, hyperrealistic photographic) 등을 바꿔 생성했지만 결국에는 바나나만 1개 그려진 사진은 생성되지 않았다고 한다.

바나나 1개 이미지만 생성하고 싶었던 그는 프로그래밍에 능숙한 친구와 상담했다. 바나나를 갖고 있는 원숭이를 출력하면 이후 프롬프트에서 원숭이만 투명하게 지정하면 가능하지 않겠냐는 말에 출력을 시도했다.

하지만 안고 있는 바나나는 1개가 아니라 2개였다. 몇 차례 시험을 해봤지만 바나나는 2개 이상 그려졌다고 한다. 사진 속에 있는 바나나가 2개라는 바이어스는 AI가 갖는 작은 바이러스 일례라는 지적이다. 미드저니 같은 이미지 생성 AI가 학습하기 위해 사용하는 데이터세트에는 바나나가 찍힌 이미지가 포함되며 여기에는 바나나라는 라벨이 붙여져 있다. 하지만 비록 바나나라는 라벨이 붙어 있어도 바나나가 몇 개라는 라벨이 붙지 않았을 가능성이 높으며 바나나를 본 적 없는 미드저니가 바나나 모습을 배워도 바나나 개수는 배울 수 없었던 것이다.

일반적인 AI 문제 중 하나로 AI 내부에서 무슨 일이 일어나고 있는지 이해하는 건 거의 불가능하다는 것이다. 뇌와 마찬가지로 심층학습 알고리즘 내부에서 일어나는 과정을 완전히 이해할 수는 없다는 것이다. AI 기술은 급속하게 발전하고 있으며 이 성과에는 눈길을 끄는 게 있지만 아직도 현실과는 적지 않은 갭이 존재하고 있다. 인간 기술은 상식과 문맥, 주위를 둘러싼 현실 세계에 의해 보강되고 있지만 AI에 이런 기능은 없고 인간이 학습용으로 준비한 데이터세트 이상 능력을 발휘할 수 없다.

물론 이 사고 방식은 인간 지성이란 물리적 현실 세계와 밀접하게 관련되는 가운데 패턴 매칭 결과에 지나지 않는 게 아닐까 하는 인간에 있어선 그다지 바람직하지 않은 의문을 낳는다. 인간의 상상력에는 한계가 있으며 아마도 연령과 함께 많은 경험을 접할수록 상상력은 제한될 것 같다며 인간이 인식하고 처리할 수 있는 데이터량에 한계가 있으며 이와 마찬가지로 AI 창조성에도 상상력에 한계가 있다는 주장이다.

그는 챗GPT나 미드저니 등 생성형 AI 출력 결과는 마치 현실을 이해하고 있는 인상을 주지만 물리적 세계 감각이 없기 때문에 바나나 1개라는 개념을 갖고 있지 않다며 현대 개발 수준에서 AI는 인간처럼 물체를 인식하지 못하며 AI는 물리적 세계가 아니라 논리적 세계에서 태어난다고 말한다.

덧붙여 그는 바나나 1개 이미지를 출력하는 시도를 2주간 계속해 프롬프트(A single banana on its own casting a shadow on a grey background)를 통해 1개 이미지를 출력하는데 성공했다고 한다. 하지만 성공적인 프롬프트를 다시 미드저니에 입력해도 다시 바나나 2개가 출력되거나 바나나 1개가 2개로 갈라지는 이미지가 출력되는 경우가 있었다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사