본문 바로가기

정보

Sora│OpenAI, Text to Video 생성 모델 둘러보기

OpenAI는 2월 15일(목) 텍스트로 동영상을 생성할 수 있는 생성형 AI 서비스인 "Sora"를 기술 문서와 함께 공개하여 화제입니다. Sora로 생성한 40여 개 이상의 동영들도 이번에 함께 소라 웹페이지를 통해 일반에 공개 되었는데요. 이데이터뉴스에서는 지금까지 여러 포스팅을 통해 텍스트로 동영상을 생성하거나 이미지로 동영상을 생성하거나 동영상으로 동영상을 생성하는 유사하고 다양한 AI 서비스들을 소개하고, 사용 방법까지도 자세히 정리하여 공유한 바 있습니다. 이런 점에서 이번에 공개된 OpenAI의 Sora의 서비스 자체가 새롭지는 않습니다만, 현재 왜 전세계적인 화제인지 이번 포스팅에서는 OpenAI가 공개한 내용을 중심으로 가볍게 "Sora"의 동영상 생성 품질 수준과 약점들을 정리하여 공유하겠습니다. 

 

1. Sora 생성 결과의 품질 

다음 동영상은 텍스트로 생성한 1분 길이의 동영상이며, 공개된 프롬프트는 다음과 같이 간단합니다. 그러나 영상의 30초 후반부터 40초 초반까지 선글라스에 반사된 도쿄 밤거리 생성 결과를 보면서 경악을 금치 못했습니다. 

"A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about."

출처 : 오픈AI의 Sora (https://openai.com/sora)

다음 동영상의 텍스트 프롬프트는 아래와 같습니다. 휴대폰으로 촬영한 2056년 나이지리아 라고스 사람들이라고 하는데요 AI로 생성한 결과라는 점을 사전에 인지하고 있음에도 생생한 현실감이 정말 대단한 것 같습니다. 

"A beautiful homemade video showing the people of Lagos, Nigeria in the year 2056. Shot with a mobile phone camera."

출처 : 오픈AI의 Sora (https://openai.com/sora)

이 외에도 다양한 현실 세계를 시뮬레이션한 동영상이 공식 웹사이트를 통해 공개 중이므로 직접 확인해 보시기 바랍니다. 

 

2. Sora의 약점 

이번에 공개된 OpenAI의 Sora도 아직 완벽하지는 않습니다. 오픈AI가 공개한 약점들 중 아래 동영상들처럼 다소 복잡한 물리법칙(러닝머신과 달리기 하는 사람이 같은 방향으로 움직임)이나 복잡한 상호 작용(입김으로 생일 케이크 촛불을 못 끄는 장면)을 시뮬레이션하는 것은 어려움이 있는 것 같습니다. 그러나 학습 시간의 문제일 뿐 오픈AI가 공개한 약점들은 조만간 해소될 것으로 기대합니다. 

출처 : 오픈AI의 Sora(https://openai.com/sora)
출처 : 오픈AI의 Sora(https://openai.com/sora)

 

3. 정리

OpenAI 측은 이번에 공개한 Sora가 AGI(Artificial General Intelligence)를 향한 중요한 이정표라고 주장하고 있습니다. 공개된 영상들의 품질만 보더라도 충분히 납득 가는 주장입니다. 현재 Sora는 영상 전문가들도 구성된 일부 테스터들과 모델의 취약성을 테스트하는 소규모 "레드팀"에게만 제공되고 있습니다만, 일반 공개가 속히 있기를 기대하며, 이번 포스팅을 마무리하겠습니다.