초록

본 연구는 빅데이터 품질 진단의 핵심 요소인 도메인 기반 품질 진단을 위한 도메인 자동 판별에 관한 연구다. 빅데이터의 가치와 활용도의 증가와 4차 산업혁명의 대두로, 법률, 의료, 금융 등 IT와 융합된 다양한 분야에서 빅데이터를 활용하여 새로운 가치를 창출하려는 노력을 진행중이다. 하지만, 신뢰도가 낮은 데이터에 기반한 분석은 과정과 결과 모두에서 치명적인 문제를 발생하며, 분석 결과에 따른 판단 또한 신뢰하기 어려워 진다. 이처럼 신뢰도가 높은 데이터의 필요성 또한 증가하였지만, 데이터의 품질 확보에 대한 연구와 그에 대한 결과는 미비하다. 본 연구는 데이터 품질 향상을 위한 진단 평가의 핵심적 요소인 도메인 기반 품질 진단에서, 수작업으로 진행되었던 도메인 판별 작업을 머신러닝을 이용하여 자동화 함으로써, 작업시간을 단축하는 것을 목표로 한다. 데이터 베이스에 저장된, 도메인이 판별되어 있는 데이터의 특성에 관한 정보들을 추출하여 변수화하고, 이를 머신러닝을 이용하여 도메인 판별을 자동화 한다. 이를 빅데이터 품질 진단에 활용하고, 품질 향상에 기여하도록 한다.

키워드

빅데이터, 데이터 품질 진단, 도메인, 머신러닝, 랜덤 포레스트

참고문헌(18)open

  1. [학술지] 이진형 / 2017 / 머신러닝을 이용한 빅데이터 품질진단 자동화에 관한 연구 / 한국빅데이터논문지 2 (2)

  2. [학술지] Robert E. Schapire / 2001 / Random Forests / Machine Learning 45 : 5 ~ 32

  3. [기타] A Liaw / 2002 / Classification and regression by randomForest / R news

  4. [학술지] B.P.Weidema / 1996 / Data quality management for life cycle inventories—an example of using data quality indicators 4 (Issues 3–4) : 167 ~ 174

  5. [학술지] 이상기 / 2014 / 데이터프로파일링과 정규 표현식 활용 비정형 과학기술 빅데이터 품질관리 방안 / 한국콘텐츠학회 논문지 14 (12) : 486 ~ 493

  6. [기타] 명재호 / 2011 / 데이터 품질 가이드라인 / 한국데이터진흥원

  7. [기타] / 2006 / 데이터 품질관리 지침 / 한국데이터베이스진흥센터

  8. [단행본] / 2017 / 데이터 산업 백서 / 한국데이터진흥원

  9. [학술지] 차경엽 / 2010 / 공공부문 정보시스템 데이터의 신뢰성 점검기법 개발 / Communications for Statistical Applications and Methods 17 (5) : 745 ~ 753

  10. [기타] / 2016 / 데이터 분석 전문가 가이드 / 한국데이터베이스진흥원

  11. [기타] J. VanderPlas / 2016 / Python Data Science Handbook: Essential Tools for Working with Data

  12. [학술대회] T. F. Cootes / 2012 / Robust and Accurate Shape Model Fitting Using Random Forest Regression Voting / Computer Vision – ECCV 2012 : 278 ~ 291

  13. [학술지] 김선호 / 2013 / 데이터 품질관리 프로세스 평가를 위한 프로세스 참조모델 / 한국전자거래학회지 18 (4) : 83 ~ 105

  14. [학술지] Caballero, I. / 2008 / IQM3 : Information Quality, Management Maturity Model / Journal of Universal Computer Science 14 (22) : 3658 ~ 3685

  15. [기타] / 2009 / ISO 8000-1 Data quality—Part1 : Overview / ISO

  16. [학술지] Pipino, L. L. / 2002 / Data quality as-sessment / Communications of the ACM 45 (4) : 211 ~ 218

  17. [학술지] 류경석 / 2006 / A Data Quality Management Maturity Model / ETRI Journal 28 (2) : 191 ~ 204

  18. [학술지] Leo L. Pipino / 2002 / Data Quality Assessment / Communications of the ACM 45 (4) : 211 ~ 218