티스토리 뷰

최근 인공지능 관련 연구는 이미지 내에 어떤 사물이 있는지를 파악하거나 이미지의 맥락을 이해하는 데에서 눈부신 성과를 이뤘습니다. 하지만 이것만으로 기계가 세상을 살아가는데 필요한 지혜를 충분히 갖추었다고 볼 수 있을까요? 한두 살 밖에 되지 않은 어린 아이들도 음료수가 가득 담긴 컵을 뒤집으면 어떤 일이 벌어질지 쉽게 배우고 예상할 수 있습니다. 하지만 아직까지 인공지능이 이런 일을 못하는 것을 보면 사람을 따라잡는 것은 먼 미래의 일처럼 보입니다.


최근 시애틀의 Ai2(Allen Institue for Artificial Intelligence) 인공지능 연구소에서는 이미지 속의 사물들이 물리적으로 어떻게 움직일 수 있는지를 예측하는 프로그램을 개발했습니다. Roozbeh Mottaghi의 연구팀이 개발한 이 시스템은 머신 러닝과 3D 모델링을 통해서 이미지 속 장면의 역학적 특성들을 분석합니다. 연구팀은 10000장의 이미지와 각 이미지에 상응하는 단순화된 3D 환경들을 인공지능을 학습시키기 위해 사용했습니다. 이미지에 대한 3D 환경은 아마존의 크라우드 소싱 플랫폼 Mechanical Turk에서 모집한 자원봉사자들의 도움을 얻었다고 합니다.


사진 내부 물체의 이동 예측


Mottaghi 연구팀의 프로그램은 다른 여러 인공지능과 마찬가지로 딥 러닝 학습 알고리즘을 사용했습니다. 딥 러닝을 통해서 학습된 프로그램은 이미지를 이루는 각 물체와 주변 환경 간에 어떤 물리적인 힘들이 작용하고 어떤 움직임이 가능한지를 도출해냅니다. 예를 들어 책상 위에 스테이플러가 올려져있는 사진에서는 책상의 표면을 따라 스테이플러가 미끄러져서 바닥에 떨어지는 것이 가능하다는 결론을 내릴 수 있습니다. 소파와 테이블이 있는 거실의 사진을 보고는 테이블이 소파에 닿을 때까지 바닥을 따라 밀 수 있다는 사실을 파악할 수 있습니다. Mottaghi는 프로그램이 이미지 외에는 어떤 것도 참고하지 않고도 이런 분석을 할 수 있도록 개발하였습니다.



이번 Mottaghi 연구팀의 프로젝트는 Ai2 연구소의 Project Plato라고 하는 큰 프로젝트의 일부분입니다Project Plato는 단순한 사물 인식과 이미지 구획화에 그치지 않고 실제 세계를 더 지혜롭게 인지할 수 있는 비전 인공지능을 구축하는 것을 목표로 하고 있습니다예를 들면 Newtonian Image Understanding이라고 하는 Project Plato에 속해있는 또다른 연구과제는 정적인 사진에 있는 물체의 동역학을 분석하는 알고리즘을 개발하는 것을 목표로 합니다스키를 타는 사람의 사진을 보고는 산을 따라 미끄러지는 사람의 경로를 예상하거나 축구공을 찬 사람의 사진을 보고는 축구공이 공중을 어떻게 가로지를 지를 예상할 수 있습니다.


Project Plato의 Newtonian Image Understanding


이런 이미지 내 사물이나 환경의 역학적인 특성에 대한 이해는 인간의 인지 능력을 인공지능이 따라잡기 위해서는 꼭 필요한 부분인 것 같습니다. 사람은 어떤 장면을 보고 그 장면의 이야기를 유추할 수 있습니다. 사물이 무엇인지 파악하는 데에서 그치지 않고 왜 그것이 있으며 어떤 일이 다음에 일어날 지 예상할 수 있는 것입니다. 그리고 이렇게 이야기를 파악하는 데에 꼭 필요한 능력이 바로 사물들의 물리적 상호작용을 파악하는 것입니다.


Mottaghi 연구팀의 프로그램은 아직 가장 기초적인 물리적 움직임 밖에 파악하지 못하고, 이미지에 대응하는 3D 환경의 정보는 별도로 구현해야 하기 때문에 부족한 점이 많습니다. 하지만 비전 만으로도 이미지 내 사물들의 역학적 특성을 파악할 수 있다는 가능성을 보여주고, 그런 역학적 특성의 이해의 중요성을 상기시켜 줬다는 점에서 충분히 높은 가치를 지니고 있는 것 같습니다. 특히 앞으로 기계나 로봇이 이렇게 주변 환경의 역학을 잘 이해할 수 있게 된다면, 현재의 인공지능보다 불확실성에 대해 훨씬 적절하게 대처할 수 있을 것으로 보입니다. 수많은 학습을 거쳐 완성된 구글과 테슬라의 자율주행 인공지능에서도 가장 큰 취약점은 예상치 못한 상황이 발생했을 시 이를 정확히 인지하고 대응하기 어렵다는 입니다. 테슬라의 자율주행 사망사고는 모델 s의 비전 엔진이 상대 자동차가 고속도로를 수직으로 가로지르는 경우를 고려할 줄 몰랐기 때문에 발생했습니다. 만약 인공지능이 인지하는 환경의 역학을 정확히 이해할 수 있다면, 고려해본 적이 없던 상황이 발생하더라도 더 적절한 대처를 할 수 있지 않을까요?



참고기사


What Robots Can Learn From Babies


Mottaghi 연구팀 논문 전문 보기



에티 페이스북 페이지를 통해 다른 에티의 소식도 받아보세요



인기 포스팅 보기

댓글
댓글쓰기 폼