티스토리 뷰

인터넷이 점점 더 보급되면서 매일 점점 더 많은 문서가 만들어지고 있습니다. 점점 더 논문, 특허, 기사의 수가 많아지면서, 이제 더 이상 단순한 단어 검색만으로는 원하는 내용을 정확히 찾기가 힘들어졌습니다. 특히, 해당분야에 어떤 이슈가 있고 최근 어떤 방향으로 변화하고 있는지를 알아보는 것은 기존의 단어 검색만으로 찾기엔 많은 시간이 소요됩니다. 새롭게 등장한 학술 검색엔진 Omnity는 문서를 업로드하면, 그 문서의 요점을 스스로 파악한 후 자동으로 관련된 내용을 찾아주는 검색 엔진입니다.



Omnity에서는 현재 US Patent(미국 특허), SEC filings(미국 증권거래위원회 보고서), PubMed(미국 국립 보건원, 미국 국립 의학 도서관 데이터베이스), 미국 국회 도서관 등 여러 공개 데이터베이스에 대한 검색을 무료로 제공하고 있습니다. Omnity에 로그인을 한 후 문서를 업로드 하면, Omnity 시스템이 해당문서를 스캔하며 특징적인 단어와 문구를 추출합니다. 이 과정에서 문서의 주제, 연구 형태, 사용된 장비 등의 데이터가 얻어집니다.


Omnity는 이렇게 추출된 데이터를 바탕으로 여러 공개 데이터베이스 내 문서를 검색해 원하는 문서를 보여줍니다. 또한 문서를 보여줄 때는 각 문서 사이의 연관성을 그래프로 표현해 어떤 문서가 어떻게 연관이 있는지 한눈에 알 수 있습니다. 예를 들어 특정 식품 첨가제에 대한 실험 쥐의 상태 변화에 관한 논문을 업로드하게 되면, 다른 식품 첨가제, 다른 종류의 실험 쥐에 대해 비슷한 형태의 실험을 한 사례를 찾아 보여주게 됩니다.



기존에는 영어로 된 문서에 대해서만 검색을 제공했지만, 이번 주부터 100여개의 언어로 검색 기능을 확장한다고 합니다. 다른 언어로 된 문서를 업로드하면 Omnity 시스템에서 이를 스캔함과 동시에 영어로 번역하여 관련 내용을 공개 데이터베이스에서 검색할 수 있게 해줍니다. 또한 지금은 영문 데이터베이스에 대한 검색만 제공하고 있지만 앞으로 이를 다른 언어권의 데이터베이스 상에서도 검색할 수 있게 발전시킬 계획으로, 언어와 상관없이 검색할 수 있는 데이터베이스 구축을 목표로 하고 있습니다.


Omnity 네이버 뉴스 검색 결과


Omnity의 비즈니스 모델은 검색 엔진이 아니라고 합니다. Omnity에서는 앞에서 이야기한 공개 데이터베이스 검색 서비스를 Omnity의 홍보 채널로 생각하고 있습니다.  Omnity를 무료로 사용하는 고객들은 Omnity에 연결되어 있는 15 테라바이트 정도의 공개 데이터베이스에서 검색을 하게 됩니다. 하지만 이렇게 문서를 검색하고자 하는 요구 외에 특정 데이터베이스 상에 검색엔진을 구축하고 싶다는 요구도 많이 있다고 합니다.


Omnity의 유료 고객들은 일정 금액을 지불하고 자신들이 사용하는 데이터베이스에 Omnity의 검색엔진을 구축할 수 있습니다. 대표적으로 로펌의 경우 매번 수십만개의 판례 중 유사 판례를 검색해야합니다. 이 경우 Omnity의 검색엔진을 판례 검색에 적용하면 기존의 키워드 기반 검색보다 훨씬 빠른 시간에 원하는 정보를 얻을 수 있게 됩니다. Omnity에서는 또한 이런 유료 고객들을 서로 연결시켜주며 데이터베이스 공유를 도와주는 서비스도 진행하고 있습니다.


Omnity 홍보 영상


Omnity는 Semantic Scholar와 함께 대표적인 인공지능 기반 검색 서비스로 알려져 있습니다. Semantic Scholar의 경우에도 문서에서 의미를 추출해 검색을 돕는 인공지능 기반 검색 서비스입니다. 하지만 두 서비스 간에는 큰 차이가 있는데, Omnity의 단어 추출 기법이 더 추상적이라고 합니다. Semantic Scholar의 경우 인간이 문장을 인식하는 방법처럼 기존의 문법 구조를 기반으로 해당 문장의 의미를 추출하는 기법을 사용하고 있습니다. 하지만 Omnity의 경우에는 문서 내의 단어 전체를 통계적인 방법으로 분석해 문법 패턴이나 특정 분야에 국한되지 않고 핵심 키워드를 추출하는 방식을 사용하고 있습니다. 이 때문에 다른 언어로의 확장도 Semantic Scholar에 비해 용이한 것 같습니다.


Semantic Scholar


Semantic Scholar, Omnity 방법 모두 장단점이 있어서 어떤 접근 방식이 우월하다고 할 수는 없습니다. 하지만 분명한 것은 이런 인공지능 기반 검색엔진이 기존의 키워드 기반 검색에 비해 더 좋은 사용자 경험을 주고 있다는 것 같습니다. 굳이 사용자가 어떤 키워드를 입력해야하는 지 고민할 필요없이 관련있는 문단이나 문서를 업로드하면 자동으로 관련 내용을 찾아주기 때문에 더욱 편하게 사용할 수 있을 것 같습니다. 실제로 Semantic Scholar의 경우 작년에 베타서비스 시작했음에도 이미 수십만개의 검색이 진행되었다고 합니다. 어쩌면 이런 인공지능 기반 검색엔진이 지금 검색 시장을 지배하고 있는 구글, 네이버 등을 대체하며 다음 세대의 검색엔진이 될 수도 있을 것 같습니다.


참고 기사

TechCrunch, "Omnity search engine finds documents relevant to yours — regardless of language"

TechCrunch, "Scientists gain a versatile, modern search engine with the AI-powered Semantic Scholar"


에티 페이스북 페이지에서 에티의 다른 소식도 받아보세요


저작자 표시 비영리 변경 금지
신고

인기 포스팅 보기

댓글
댓글쓰기 폼