티스토리 뷰

뉴스

손으로 쓴 문서들을 디지털화하는 방법 - SearchInk

알 수 없는 사용자 2016. 11. 17. 22:46

오늘날 수천, 아니 수백만 건의 문서들은 읽힐 틈도 없이 웹 한구석에서 썩어가고 있습니다. 아예 사용자들이 검색조차 할 수 없어 읽히지조차 못하는 이 문서들의 공통점은 손으로 쓰여졌다는 것입니다. 검색이 불가능해 웹 한구석에 방치되어 있는 이 문서들을 다시 웹 상으로 불러줄 수 있는 기술을 가진 스타트업 SearchInk를 소개합니다.


Searchink의 창립자 Sofie Quidenus


타자로 만들어진 문서들은 OCR(Optical character recognition : 광학 글자 인식) 프로그램 혹은 현존하는 여러 글자 인식 프로그램으로 인식이 용이하지만, 필기체 등과 같이 여러 가지 글씨체로 쓰여진 손글씨의 문서들을 인식한다는 것은 아직도 극도로 어려운 과제로 남아있습니다.  구글이 인수했던 회사 reCAPTCHA 에서는 웹의 보안 검사에 문서의 디지털화 과정을 포함시켜 사용자들의 참여로 이를 해결하려 하기도 했었습니다. 하지만 당시 사용자들을 강제로 참가시키게 만든다는 점 때문에 큰 비판받았던 것을 생각하면 이 접근도 손글씨 문서들의 디지털화에 대한 해답은 아닌 것 같습니다.


전 세계 사람들을 문서 디지털화에 강제 참가시켰던 reCAPTCHA


하지만 베를린에서 발표된 스타트업 SearchInk는 머신 러닝을 결합한 글씨 인식 프로그램으로 이 문제를 타파했습니다. 이 스타트업은 17일 시드 펀딩에서 420만 유로를 유치하였습니다. 이 투자자 중에는 베를린 투자 은행 뿐 아니라 전 구글 스위스의 디렉터였던 Michael Schmitt도 포함되었습니다.


SearchInk의 글씨 인식 기술 (HTR : Handwritten Text Recognition)은 문서를 분석하고 이해하는 과정 자체를 학습합니다. 즉, 문서 읽는 방법을 가르치는 것입니다. 그리고 이렇게 얻어진 알고리즘을 통해 관련된 콘텐츠를 빠르고 정확하게 찾아내게 됩니다. 이 과정은 크게 3 가지로 분류됩니다.


SearchInk는 우선 문서를 각기 다른 유형으로 분류하여 SearchInk 내의 알고리즘이 인식하기 쉬운 기준으로 분류하게 됩니다. 이를 통해 문서의 전반적인 언어나 글씨체, 레이아웃에 따라 적절한 대응을 할 수는 포괄적인 플랫폼을 구축하게 됩니다. 다음으로 문서 내의 레이아웃을 분류합니다. 손글씨로 되어 있어 알아 보기 힘든 표의 형식이나 손글씨로 되어 있을 경우의 알아 보기 힘든 줄 등을 구분합니다. 마지막으로 글자들을 찾고 의미를 분석하는 과정으로 이루어지게 됩니다. 문서 내에서 반복되는 단어들을 찾아내고, 그 단어들의 물리적 위치를 구분하여 의미론적인 분석까지 해냅니다.


Searchink 홈페이지


Searchink의 창립자 중 한명인 Sofie Quidenus"SearchInk는 자체 학습 기능을 가지도록 개발되었고, 이는 제품의 확장성과 지속적인 최적화를 할 수 있도록 해 줍니다. 새로운 문서의 레이아웃이나 다른 유형의 글씨체에 대한 학습이 이루어질 뿐 아니라 이 모든 것을 판별할 수 있는 소프트웨어가 자체적으로 개발되는 것입니다.”라고 밝히며 사람의 손이 필요하지 않은 기계학습을 궁극적인 초점이라 강조했습니다.


SeachInk의 플랫폼은 무궁무진한 발전 가능성을 가질 것으로 기대됩니다. SearchInk의 글씨 인식 기술을 이용한다면 갤럭시 노트나 아이폰 등에서 노트를 작성하고, 필기를 자동으로 읽도록 하는 앱을 개발하는 것은 시간문제일 것입니다여기에 기계학습으로 자체적인 학습이 가능한 앱이 개발된다면, 시간이 지날 수록 각각의 개인에 맞춰 글자를 인식할 수 있기 때문에 소비자들에게 더욱 더 훌륭한 사용자 경험을 줄 수 있을 것 같습니다. 


SearchInk는 일단 B2B(기업 대 기업) 방식으로 거래를 시작할 계획이라고 합니다. SearchInk의 기술을 이용하여좀 더 효율적이면서도 비용이 절감되는 환경을 가진 기업들에게 우선적으로 자신들의 기술을 도입할 예정이라고 합니다. 현재는 스마트폰이나 전자 보드로 필기하는 것이 전부이지만, 각 기업의 전자 보드 서비스에 SearchInk의 글씨 인식 기술을 적용시킨다면, 필기된 문서들을 손쉽게 한글 파일, 워드 파일 등의 문서로 탈바꿈시킬 수 있을 것이라 기대합니다.


참고 기사

TechCrunch, "SearchInk – Unlocking the handwritten past, and present, with machine learning"


에티 페이스북 페이지를 통해 다른 에티 소식도 받아보세요

 


인기 포스팅 보기

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함