본문 바로가기 메뉴바로가기
모달창닫기

News

Board

IWAZ News

(주)아이와즈 우수사례 선정, 동의어 데이터로 공익적 AI를 향상시키다

작성일2018-12-20

조회수1897




정보검색 원천 기술을 바탕으로 빅데이터 수집기, 검색엔진, 콘텐츠 모니터링, 텍스트 마이너 등 솔루션을 보유한 기업. 아이와즈는 인공지능(이하 AI)과 빅데이터 관련 사업을 운영하고 있다. 사업의 내용을 들여다보면 지능 정보형 인재추천 사업, 가짜뉴스 판단 사업, 위험 예측 사업 등 일상에서 활용도 높은 일들이 많다. 아이와즈는 ′18년 데이터 구매 바우처 지원 사업을 통해 토픽 동의어 DB를 각각의 플랫폼에 알차게 적용했다. 구입한 데이터 상품이 각각의 플랫폼에 어떤 역할을 했는지, 또 어떤 발전을 이끌었는지 양중식 ㈜아이와즈 대표를 만나 차근차근 이야기를 들어봤다.

[Purpose]
"빅데이터와 AI를 공익적으로 사용할 수 있을까?"
AI와 빅데이터 분석 기술을 보유한 아이와즈는 정보검색과 자연어 처리 기술에 능한 IT기업이다. 양중식 ㈜아이와즈 대표는 솔루션을 개발하면서 이를 공익적으로 활용할 수 있는 사업에 집중하고 싶었다. “현 시대에 범죄 대상이나 가짜뉴스의 피해자는 누구나 될 수 있어요. 예상치 못한 상황에서 범죄의 피해자가 되는 경우는 흔합니다. 유명인이 아닌 일반인도 원치 않게 개인정보가 새고, 그로 인해 직·간접적으로 피해를 볼 수 있죠. 그런 피해를 정제해줄 수 있는 시스템이 사회 전반에 필요하다고 느껴왔기 때문에 저희 아이와즈의 주 종목인 AI와 빅데이터 분석 기술로 시도해 봤습니다.” 양 대표는 데이터 구매 바우처 지원 사업에서 구입비를 지원받아 구입한 토픽 동의어 DB를 아이와즈의 빅데이터 플랫폼에 학습시켜 현재 참여 중인 사업에 적용했다. 참여 중인 사업은 ‘다크웹 스캐닝 기술 기반의 정보 수집·분석 시스템 개발’과 ‘뉴스의 팩트와 가치 지향성을 내재한 가짜뉴스 판별 인공지능 알고리즘 개발’이다. 이 같은 사업들에 참여하는 이유를 양 대표는 이렇게 설명했다. “처음에는 저희가 가진 기술을 공익적으로 활용하고 싶다는 단순한 선의와 욕심이었습니다. 그런데 본격적으로 다크웹을 분석하고, 가짜뉴스 판별 알고리즘을 개발하면서 저희가 사회에 꼭 필요한 일을 하고 있다는 사명감이 들었어요. 특히 다크웹의 경우 입에 올리기 어려울 정도로 끔찍한 범죄가 성장하는 곳입니다. 흔히들 IT종사자라고 하면 책상 앞에 앉아있는 모습을 떠올리시겠지만, 저희는 사회의 어두운 곳을 찾아가 악의(惡意)를 색출하는 역할을 맡았다고 생각합니다.”

[Process]
"웹의 어두운 곳을 공략하다"
‘다크 웹(Dark web)’은 인터넷을 사용하지만, 접속을 위해서는 특정 프로그램을 사용해야 하는 웹을 가리킨다. 때문에 일반적인 방법으로 접속자나 서버를 확인할 수 없고, 로그도 남지 않아 완벽한 익명성을 보장한다. 문제는 다크웹이 단순히 비밀스러운 공간으로만 존재하는 게 아니라 성범죄, 마약, 밀수, 청부범죄, 폭력 등 범죄가 야기되는 곳이라는 점이다. 다크 웹이라는 용어는 2013년 미국 FBI가 온라인 마약 거래 웹사이트를 적발하면서 알려졌다. 다크 웹의 존재가 등장한 지 몇 년 되지 않았기 때문에 아직 다크웹을 감시, 추적하는 시스템의 연구와 실적이 미흡한 상태다. 아이와즈는 다크웹 스캐닝 술을 통해 사이트의 정보를 수집, 분석하는 시스템을 개발하고 있다. 다크웹 상에 존재하는 범죄 정보 사이트를 수집한 후 범죄 프로파일링을 위한 빅데이터 분석을 진행한다. 분석결과는 범죄자 추적 및 프로파일링 시 수사기관의 의사결정을 지원하는 역할을 한다. 이때 기술의 포인트는 텍스트 분석이다.

“범죄 정보를 인지하려면 텍스트 분석을 거쳐야 합니다. 예를 들어 폭력, 범죄 등의 단어는 범죄 관련 정보가 확실하지만 구타, 폭행 등 파생된 단어들의 연관성을 도출해야 범죄 유형 분석이 가능합니다. 그래서 AI에 최대한 많은 동의어를 학습시켜야 합니다.” 아이와즈의 다크웹 스캐닝 기술은 명사 위주로 텍스트를 분석해 범죄와 관련된 용어가 많이 나오는 문서를 찾거나 단어의 연관성, 유의어 등을 복합적으로 분석한다. “다크웹 관련 데이터를 최대한 많이 수집한 후 이를 분석하는데, 단어와 단어 사이의 연관성을 분석하기 위해 토픽 동의어 DB를 활용했습니다. 사람도 외국어를 배울 때 많은 단어와 예문을 알아야 유창해지듯, 다크웹을 스캐닝하는 AI도 단어를 최대한 많이 학습할수록 유능해집니다.”

" 시대가 요구하는 신뢰도 높은 뉴스 판별 "
다크웹 스캐닝 기술을 기반한 분석 시스템과 함께 토픽 동의어 DB가 활용된 부문은 ‘뉴스의 팩트와 가치 지향성을 내재한 가짜뉴스 판별 인공지능 알고리즘 개발’이다. 이 사업은 뉴스의 제목과 내용의 모순점을 판별하거나 기사 본문 중 맥락에 관계없는 내용을 검출하는 AI 알고리즘을 개발하는 것이다. 사람이 뉴스를 읽고 진실을 판별하려면 제목, 본문을 읽어 맥락을 파악한다. 같은 주제의 여러 뉴스를 읽으면 판별에 도움이 된다. 그런 수고를 집약한 시스템이 아이와즈의 사업 중 하나인 가짜뉴스 판별 AI 알고리즘의 개발이다.

“알고리즘은 제목과 본문 정합성 단계, 본문 문장 분석 단계(사실, 주장, 유머 등), 출처 신뢰도 분석 단계로 나뉘어져 있고, 이러한 단계를 거쳐 뉴스 신뢰도가 측정됩니다. 복잡하고 다양한 기술들이 사용되지만, 가장 밑바닥에는 단어와 단어 사이의 관계를 파악하는 알고리즘이 핵심이죠.” 현재는 적중률을 높이기 위해 토픽 동의어 DB를 적용, 알고리즘의 고도화를 진행한 상태다. 양 대표는 이 알고리즘을 서비스할 수 있는 단계가 오면 뉴스사이트, 포털 등에 적용해 불분명한 정보와 가짜뉴스를 검증하는 데 활용될 거라 기대하고 있었다. 가짜뉴스 여부를 알고 싶은 개인이 뉴스의 URL이나 본문을 입력해 판별도 가능할 거라 전했다. 이와 관련해 올해 12월 아이와즈는 과학기술정보통신부과 개최하는 ‘가짜뉴스 인공지능 R&D 챌린지’에 참가할 예정이다. 지난해 대회에서 아이와즈팀은 2위 장관상을 차지했다. 올해는 지난해 대회 1위부터 3위까지 세 팀이 다시 경합을 벌인다. “당시에는 폐쇄된 환경에서 테스트해 가짜뉴스 판별 적중률이 70%였습니다. 그 이후 뉴스데이터를 300만 건 이상 수집해 알고리즘에 적용했고, 토픽 동의어 DB를 학습시켰기 때문에 좋은 결과가 있을 거라 기대하고 있습니다.”

[Success]
"하나의 상품을 두루 이용 ‘일석삼조’"
양 대표는 데이터 구매 바우처 지원 사업을 통해 지원 받은 데이터상품이 두 가지 사업의 핵심 AI의 분석 품질을 상당히 높였다고 전했다. 다크웹 스캐닝 기술 기반의 분석 시스템에는 범죄용어와 유사단어에 대한 범죄용어 사전을 구축하고, 해당 사전을 이용해 범죄 연관성, 이슈 탐지와 분석, 전처리 사전으로 활용됐다. 가짜뉴스 판별 AI 알고리즘은 뉴스의 본문에 존재하는 주요 키워드를 통해 제목과 의미를 분석할 때 동의어를 이용해 기사의 의도와 가짜 정보를 파악할 수 있는 전처리 사전으로 활용할 수 있었다.

“토픽 동의어 DB를 활용하기 전에는 감성분석, 연관어 분석, 문서 분류 수준이 낮았습니다. 이번 지원 사업을 통해 각 AI의 품질을 월등히 개선시킬 수 있었기에 매우 만족합니다.” 양 대표는 내년에 한국전자통신연구원과 진행할 ‘위험 상황 초기 인지를 위한 ICT 기반의 범죄 위험도 예측 및 대응 기술 개발’에도 토픽 동의어 DB를 활용할 예정이다. 이 사업은 국민들의 생활 안전을 보장하기 위해 경찰에 접수된 사건의 위험 수준을 초기에 인지해 실시간으로 범죄 위험도를 판단하고 대응하기 위한 사업이다. 현재 치안정보 데이터뱅크를 구축하고 있는데, 지원받은 토픽 동의어 DB 활용하게 된다.

"안전사회 실현 위해 널리 쓰였으면"
양 대표는 다크웹 스캐닝 기술 기반의 정보 수집·분석 시스템과 가짜뉴스 판별 AI가 경찰청, 국정원 등 정부부처에서 활용도가 높을 것으로 내다보고 있다. “다크웹의 불법행위와 범죄위험성을 조기에 식별하고 검증할 수 있다면 미리 범죄를 차단할 수 있어 사건이 벌어진 후에 수사하는 것보다 효율적일 거라 생각합니다. 차단할 수 있는 범죄의 유형도 여러 가지일 겁니다. 성범죄, 마약 등은 물론 약물중독, 탈세, 기술 유출 등 여러 유형의 범죄를 예방하는 데 요긴한 시스템이 될 거라 기대하고 있습니다.” 더불어 가짜뉴스 판별 AI는 확실하지 않은 정보를 판별, 선별하고 싶을 때 언제든지 웹사이트를 통해 신뢰성과 근거자료를 확인할 수 있는 대국민 서비스로 활용될 거라 예상했다.

“가짜뉴스 판별 AI가 대중적으로 활용된다면 확인되지 않은 정보에 대해서 선동되거나 이로 인한 세대 간, 계층 간 갈등이 줄어들지 않을까 기대합니다. 사회의 어느 곳이든 갈등이 발생할 여지가 있는 곳이라면 의견과 정보를 정제해줄 필터가 필요하지요. 아이와즈에서 개발하고 있는 AI들이 이 사회를 조금이나마 안전하고 깨끗하게 만드는 데 일조하기를 바랄 뿐입니다.” 기업의 선한 의도가 사업화되고 가시적 성과를 낸다면 기업과 사회는 좋은 방향으로 함께 걸음을 뗄 수 있다. 그 사례에 아이와즈가 거론될 날이 얼마 남지 않았다고 느꼈다.

[Opinion]
양 대표는 IT기술의 흐름이 빅데이터를 기반한 AI의 발전으로 향할 거라 전망했다. 자연스럽게 관련 기업이 늘어날 것이고, 새로 생겨나는 중소기업들에게 데이터 구매 바우처 지원 사업과 같은 기회는 절실하다고 전했다.

“빅데이터 분석과 AI 기능의 품질을 개선하려면 정제된 데이터가 필수입니다. 그런데 데이터 구축은 인력과 시간이 많이 들기 때문이 중소기업에서 직접 진행하기가 쉽지 않아요. 저희는 구입비 지원을 받아 시간과 인력을 절약할 수 있었습니다.” 중소기업에서 데이터, 기술, 서비스 등 모든 항목을 수행하는 것은 쉽지 않다. 아이와즈와 같이 기술에 집중하는 기업은 당연히 데이터의 필요성이 강할 수밖에 없다. 때문에 양 대표는 “데이터를 필요로 하는 많은 기업들이 아이와즈가 지원받은 것처럼 도움을 받길 기대한다.”고 전했다.

2018 데이터 구매 바우처 지원사업 우수사례집


TOP 페이지 처음으로 이동