EDGE

EDGE 리뷰: 스탠포드 연구진의 음악 기반 편집 가능한 춤 생성

비디오 AI 크로스보더 AI
4.4 (15 평점)
33
EDGE screenshot

EDGE의 춤 생성 인터페이스 살펴보기

EDGE 프로젝트 페이지(edge-dance.github.io)를 방문하면 깔끔한 학술 스타일의 사이트가 나타나며, 즉시 인상적인 데모 비주얼을 보여줍니다. 랜딩 페이지에는 들어본 적 없는 음악에서 생성된 100개의 비선별 댄스 샘플이 방법에 대한 명확한 설명과 함께 표시됩니다. 직접 테스트할 수 있는 인터랙티브 플레이그라운드나 API는 없으며, 이는 순수한 연구 발표입니다. 대신 페이지는 CVPR 2023 논문, 코드 저장소, 데모 비디오 모음에 대한 링크를 제공합니다. 레이아웃은 저자들이 언급했듯이 Imagen 웹사이트에서 크게 영감을 받았지만, 춤 동작에 초점을 맞추고 있습니다. 대시보드는 본질적으로 정적 정보 페이지이지만, 편집 가능한 합성 예시 갤러리를 포함하고 있습니다: 관절별 제약(상체에서 하체 생성), 시간적 인비트위닝, 댄스 연속 생성 등이 있습니다. 이 예시들을 클릭하여 살펴보면 생성된 동작들을 나란히 비교할 수 있습니다. 이 사이트는 EDGE가 상업 제품이 아닌 연구자를 위한 방법임을 분명히 합니다. 직접 평가하려면 GitHub 저장소를 클론하고 로컬에서 모델을 실행해야 하며, 이는 상당한 하드웨어 자원이 필요합니다. 프로젝트에서는 OpenAI의 강력한 음악 특징 추출기인 Jukebox와 함께 트랜스포머 기반 확산 모델을 사용한다고 밝히고 있습니다.

기술 심층 분석: 확산 모델과 Jukebox

EDGE는 특정한 어려운 문제를 해결합니다: 임의의 음악 입력에서 현실적이고 편집 가능한 춤 시퀀스를 생성하는 것입니다. 스탠포드 대학교의 Jonathan Tseng, Rodrigo Castellon, C. Karen Liu 연구진은 조건부 확산 모델을 활용하는 방법을 제시합니다. 음악은 먼저 리듬과 장르를 모두 이해하는 고정된 Jukebox 모델을 사용하여 임베딩으로 인코딩됩니다. 이 임베딩은 5초 댄스 클립을 생성하는 트랜스포머 기반 확산 모델을 조건화합니다. 임의로 긴 춤을 생성하기 위해 EDGE는 클립 배치를 연결할 때 시간적 제약을 적용하여 부드러운 전환을 보장합니다. 주목할 만한 기술적 기여는 Contact Consistency Loss로, 동작 생성에서 흔히 발생하는 의도치 않은 발 미끄러짐을 크게 줄여줍니다. 모델은 발이 자연스럽게 미끄러져야 하는 경우(일부 춤 동작에서처럼)와 발이 고정되어 있어야 하는 경우를 학습하여 물리적으로 타당한 결과를 도출합니다. 논문에서 EDGE는 이전 방법인 Bailando 및 FACT와 비교됩니다. 인간 평가자들은 EDGE의 안무를 크게 선호하여 그 효과를 입증했습니다. 그러나 모델은 특정 데이터셋(이 분야에서 흔히 사용되는 AIST++ 댄스 데이터베이스)으로 훈련되었으며, 미세 조정 없이 모든 음악 스타일에 잘 일반화되지 않을 수 있습니다. API나 가격은 언급되지 않았으며, 이는 학술적 사용을 위해 코드가 제공되는 오픈소스 연구 프로젝트입니다.

편집 가능한 합성 및 실제 사용 사례

EDGE를 이전 춤 생성 도구와 차별화하는 점은 편집 가능성에 중점을 둔 것입니다. 이 방법은 공간적 및 시간적 제약을 모두 지원합니다. 예를 들어 상체 동작을 지정하고 모델이 하체를 생성하도록 하거나 그 반대로 할 수 있습니다. 이는 관절별 제약 데모에서 확인할 수 있습니다. 동작 인비트위닝의 경우, EDGE는 미리 정해진 포즈로 시작하고 끝나는 춤을 생성하여 중간을 자연스럽게 채울 수 있습니다. 연속 생성도 가능합니다: 초기 동작 시퀀스를 제공하면 EDGE가 스타일과 음악 일치를 유지하면서 더 긴 춤으로 확장합니다. 이러한 기능은 게임 개발, 가상 현실, 영화 프리비주얼라이제이션에 응용할 수 있지만, 역시 코드를 실행할 기술적 전문 지식이 있어야 합니다. DeepMotion이나 RADiCAL과 같은 클라우드 기반 동작 생성 상용 도구와 달리, EDGE는 웹 인터페이스나 API를 통해 접근할 수 없습니다. 엄격히 연구용 산출물입니다. 빠른 도구를 원하는 아티스트나 안무가에게는 적합한 솔루션이 아닙니다. 그러나 최신 춤 생성에 관심이 있는 AI 연구자와 엔지니어에게 EDGE는 훌륭한 참고 자료입니다. 코드는 제공되어 있으며 잘 문서화되어 있고, 논문은 명확한 비교를 제공합니다. 한계점은 모델이 상당한 GPU 메모리(추론에 최소 16GB VRAM 필요)를 요구하며, 처음부터 훈련하려면 훨씬 더 많은 메모리가 필요하다는 것입니다. 또한 편집 기능은 강력하지만 비전문가에게는 직관적이지 않을 수 있습니다. 입력 제약 조건을 올바르게 형식화하는 방법을 이해해야 합니다.

전반적으로 EDGE는 음악 기반 춤 생성의 경계를 확장하는 강력한 학술적 기여이지만, 무엇보다도 연구 도구로 남아 있습니다.

직접 확인하려면 EDGE를 https://edge-dance.github.io/에서 방문하세요.

도메인 정보

도메인 정보 로딩 중...
345tool Editorial Team
345tool Editorial Team

We are a team of AI technology enthusiasts and researchers dedicated to discovering, testing, and reviewing the latest AI tools to help users find the right solutions for their needs.

我们是一支由 AI 技术爱好者和研究人员组成的团队,致力于发现、测试和评测最新的 AI 工具,帮助用户找到最适合自己的解决方案。

댓글

Loading comments...