SayCan 리뷰: 로봇 동작에 언어 모델을 적용하기

텍스트 AI 개발 프레임워크

4.3 (21 평점)

SayCan 살펴보기: 기능과 중요성

SayCan 페이지를 방문했을 때, 이것이 일반적인 상용 도구가 아니라 Google Robotics 및 Everyday Robots의 대규모 팀이 진행하는 학술 연구 프로젝트임을 바로 알 수 있었습니다. 사이트에는 문제가 명확히 제시되어 있습니다. GPT-3와 같은 대규모 언어 모델(LLM)은 물리적 현실에 대한 근거(grounding)가 부족합니다. 예를 들어, 액체를 쏟은 것을 어떻게 청소해야 하는지 설명할 수는 있지만, 로봇이 실제로 수행할 수 없는 단계(예: 진공청소기가 없는데 "진공청소기를 사용하세요"라고 제안)를 제시할 수도 있습니다. SayCan은 LLM 추론과 학습된 어포던스 함수(affordance function)를 결합하여 이 문제를 해결합니다. 어포던스 함수는 현재 상태에서 스킬을 실행할 성공 확률을 추정하는 가치 함수입니다. 시스템은 의미적으로 유용하면서도 물리적으로 실행 가능한 스킬을 반복적으로 선택한 후, 이를 모바일 매니퓰레이터에서 실행합니다. 이 접근 방식은 주방 시나리오에서 시연됩니다. "음료를 쏟았어요, 도와주실 수 있나요?"라는 요청을 받으면, 로봇은 진공청소기를 환각(hallucinate)하는 대신 스펀지를 집어 가져올 수 있습니다.

직접 사용해본 소감 및 기술적 관찰

무료 티어(이 프로젝트는 오픈소스 연구 프로젝트이므로 가격이 없음)를 테스트하면서 GitHub 저장소와 공개된 시뮬레이션 탁상 환경을 살펴보았습니다. 대시보드는 제품 UI가 아니라 ROS 기반 통합이 포함된 코드베이스입니다. 로컬 머신에서 시뮬레이션 환경을 실행해보았는데, 설정에 상당한 종속성(PyTorch, MuJoCo, Google 내부 라이브러리)이 필요했습니다. 워크플로는 학술적입니다. 저수준 스킬(예: "컵 집기", "싱크대로 가기") 집합을 정의하고, 각각에 대한 가치 함수를 훈련한 다음, 사전 훈련된 LLM(FLAN 또는 PaLM)과 결합합니다. 그러면 코드가 대화 루프를 실행합니다. LLM이 다음 스킬을 제안하고, 어포던스 함수가 그 확률을 재조정합니다. PaLM-SayCan이 FLAN보다 오류율에서 50% 개선되어 올바른 스킬 선택 84%, 성공적인 실행 74%를 달성한 것을 관찰했습니다. 기술적 핵심은 분명히 LLM 점수화와 학습된 어포던스의 결합입니다. API도 없고, 클라우드 서비스도 없으며, 단지 연구 프레임워크일 뿐입니다.

시장 위치, 장점 및 한계

SayCan은 LLM을 사용한 로봇 작업 계획이라는 틈새 시장에 위치합니다. ROS의 MoveIt이나 Nvidia의 Isaac Sim과 같은 상용 프레임워크와 달리, SayCan은 특히 언어 근거(grounding)에 초점을 맞춥니다. 경쟁 제품으로는 Google 자체의 RT-2(비전-언어-행동 모델)와 Microsoft의 RobotChat이 있습니다. SayCan은 이들보다 앞서 개발되었으며 더 모듈식입니다. 장점: 이 접근 방식은 우아합니다. LLM을 재훈련하지 않고도 근거 문제를 명시적으로 해결합니다. 오픈소스 시뮬레이션은 재현성을 가능하게 합니다. PaLM을 사용한 업데이트된 결과는 명확한 개선을 보여줍니다. 한계: 이는 순수한 연구 도구입니다. 즉시 배포 가능한 API도 없고, 고객 지원도 없으며, 코드는 Google 내부 인프라(예: 논문에서 Everyday Robots 하드웨어 사용)에 의존합니다. 실제 환경에 배포하려면 광범위한 사용자 지정이 필요합니다. 가격은 공개되지 않았습니다. 가격이 없기 때문입니다. 이 도구는 LLM을 통합하려는 로봇 공학 연구자에게 가장 적합하지만, 상용 제품을 개발하는 개발자에게는 적합하지 않습니다.

SayCan 사용 대상 및 최종 평결

SayCan은 강화 학습, LLM 및 로봇 제어에 익숙한 학술 연구실과 고급 애호가에게 이상적입니다. 실제 또는 시뮬레이션 로봇에서 언어 근거를 실험해보고 싶다면 공개된 코드와 논문이 금광과 같습니다. 하지만 공장 바닥이나 스마트 홈 기기를 위한 플러그 앤 플레이 솔루션이 필요하다면 다른 곳을 찾아보세요. Covariant.ai나 Google의 PaLM-E API(사용 가능해지면)와 같은 새로운 상용 제품을 고려하세요. 제 솔직한 평가는 다음과 같습니다. SayCan은 이 분야를 발전시킨 훌륭한 개념 증명이지만, 제품은 아닙니다. 투명한 문서화와 오픈소스 코드는 신뢰를 얻지만, 가파른 학습 곡선과 세련된 인터페이스의 부재가 대상을 제한합니다. 로봇 스택과 연구 코드를 깊이 파고들 인내심이 있다면 시도해보세요. SayCan을 직접 살펴보려면 https://say-can.github.io/를 방문하세요.

웹사이트 방문

도메인 정보

도메인 정보 로딩 중...

345tool Editorial Team

We are a team of AI technology enthusiasts and researchers dedicated to discovering, testing, and reviewing the latest AI tools to help users find the right solutions for their needs.

我们是一支由 AI 技术爱好者和研究人员组成的团队，致力于发现、测试和评测最新的 AI 工具，帮助用户找到最适合自己的解决方案。

Loading comments...