연속기획
본문
직업보건의 빅데이터와 AI의 관계
글. 김수근
- 의학박사/직업환경의학전문의
서론
오늘날 다양한 IT 환경에서 수많은 데이터가 쏟아지고 있다. RFID 리더, 바코드 스캐너, 기계장치의 센서는 물론 최근에는 중요 자원의 위치를 알려주는 GPS(Global Positioning Systems) 정보까지 다양한 데이터가 끊임없이 쏟아지고 있다. 이렇듯 지속해서 데이터를 발생시키는 시스템들이 많아지고, 발생하는 데이터의 양이 점점 늘어가고 있는 상황에서 의미 있는 데이터를 신속하게 추출하고 처리하는 문제가 중요해지기 시작했다.
최근에는 빅데이터(Big Data) 분석에서 빠질 수 없는 부분이 인공지능(Artificial Intelligence)이고, 인공지능에서 빠질 수 없는 부분도 빅데이터인 시대가 된 것 같다. 인공지능과 빅데이터 사이에는 서로 어떠한 연관성이 있을 것으로 추측이 된다.
단어의 의미만 놓고 보면 인공지능은 기계에게 인간의 지능을 구현하는 것을 말하고, 빅데이터는 대용량의 데이터를 말한다. 이렇듯 원래 단어가 의미하는 뜻만 가지고 보면 서로 상관이 없는 것처럼 보일 수도 있다.
인공지능과 빅데이터가 서로 어떤 관계에 있는지 빅데이터가 가지고 있는 특징에 대해서 알아보고 실제 사례를 통해 빅데이터를 활용한 인공지능과의 관계와 이해도를 높여 보고자 한다.
-
빅데이터의 정의 및 특징
빅데이터의 특징으로는 크기(Volume), 속도(Velocity), 다양성(Variety)을 들 수 있다. 크기는 일반적으로 수십 테라바이트 혹은 수십 페타바이트 이상 규모의 데이터 속성을 의미한다. 저장되는 물리적 데이터양을 나타내며 빅데이터의 가장 기본적인 특징이다. 속도는 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성이다. 융복합 환경에서 디지털 데이터는 매우 빠른 속도로 생산되므로 이를 실시간으로 저장, 유통, 수집, 분석처리가 가능한 성능을 의미한다. 이는 데이터가 생성되고, 저장되며, 시각화되는 과정이 얼마나 빠르게 이뤄져야 하는지에 대한 중요성을 나타낸다. 다양성(Variety)은 다양한 종류의 데이터를 의미하며 정형화의 종류에 따라 정형, 반정형, 비정형 데이터로 분류할 수 있다. 비정형 데이터로는 사진, 오디오, 비디오, 소셜미디어 데이터, 로그 파일 등도 포함된다. 이러한 세 가지 요소의 측면에서 빅데이터는 기존의 데이터베이스와 차별화된다.
빅데이터 시대에는 방대한 데이터의 양을 분석하여 일정한 패턴을 추출할 수 있다. 그러나 과연 데이터 일정 패턴을 설명할 수 있을 만큼 신뢰성이 있느냐는 문제가 생긴다. 데이터가 많아질수록 엉터리 데이터도 커질 가능성이 높아지기 때문이다. 따라서 빅데이터를 분석하는 데 있어 기업이나 기관에서 수집한 데이터가 정확한 것인지, 분석할 만한 가치가 있는지 등을 살펴야 하는 필요성이 생겼고 이러한 측면에서 빅데이터의 새로운 속성인 정확성(Veracity)이 제시되고 있다.
최근 소셜미디어의 확산으로 자기 의견을 웹을 통해 자유롭게 게시하는 것이 쉬워졌지만 실제로 자신의 의도와는 달리 자기 생각을 글로 표현하게 되면 맥락에 따라 자신의 의도가 다른 사람에게 오해를 불러일으킬 수 있다. 이처럼 데이터가 맥락에 따라 의미가 달라진다고 하여 빅데이터의 새로운 속성으로 가변성(Variability)이 제시되고 있다.
빅데이터는 정형 및 비정형 데이터를 수집하여 복잡한 분석을 실행한 후 용도에 맞게 정보를 가공하는 과정을 거친다. 이때 중요한 것은 정보의 사용 대상자가 쉽게 이해할 수 있어야 한다. 그렇지 않으면 정보의 가공을 위해 소모된 시간적, 경제적 비용이 무용지물이 될 수 있기 때문이다. 이러한 필요성으로 인해 빅데이터의 새로운 속성으로 시각화(Visualization)도 제시되고 있다.
살펴본 바와 같이 빅데이터는 어떠한 한 분야를 나타내거나 한 가지 특징을 개념으로 사용하기 어려운 측면이 있다. 분석과 활용 과정에 필요한 사항을 설명할 수는 있겠지만 사용 분야마다 중요하게 생각하는 부분은 다를 수 있고, 필요 없는 것도 있을 수 있다. 또한, 3V, 4V, 5V 등 시간이 지나면서 기존 빅데이터의 특징인 3V에 새로운 속성들이 추가되고 있는 추세이다. 이러한 점이 빅데이터의 정의를 어렵게 만들고 있다.
빅데이터란 과거 아날로그 환경에서 생성되던 데이터에 비하면 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말한다. 따라서 빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어렵다.
직업보건 영역의 빅데이터는 어떤 것들이 있으며, 새롭게 등장할 빅데이터가 무엇인지는 물론 고도화된 인공지능 시스템을 활용 하여 작업자의 건강증진과 사고 예방을 지향할 빅데이터의 종류와 특징에 대하여 고심하여야 할 것이다.
직업보건 분야의 빅데이터라는 원석을 발굴하고, 보관, 가공하는 일련의 과정을 이음새 없이 통합적으로 제공할 수 없다면, 직업보건 분야에 필요한 정보제공은 물론 통찰력을 적절하게 제공하지 못할 것이다. 오히려 잘못된 정보로 판단을 그르칠 수도 있을 것이다. 따라서 안정적 기반 위에서 전 처리된 데이터를 분석하고 이를 다시 직업보건 분야의 각종 업무에 맞게 가공하여 활용할 수 있을 때 사용자가 원하는 가치를 정확하게 얻을 수 있을 것이다.
-
빅데이터와 인공지능의 관계
데이터를 활용해서 머신러닝 알고리즘을 통해 학습을 하고 학습된 결과를 바탕으로 데이터의 의미 있는 가치를 찾아서 의사결정을 하는데 참고 자료로 활용하는 것이 인공지능을 활용한 방법 중 한 가지이다.
이처럼 학습을 하기 위해서 빠질 수 없는 것이 데이터이고, 인공지능을 통한 가치 있는 의미를 구하기 위해 필요한 것도 데이터이기 때문에 공생 관계에 있다고 말할 수 있다.
또한, 인공지능 구현에 빅데이터를 이용하여 그 정확도를 획기적으로 증가시켰고, 빅데이터 분석에 인공지능 기술을 도입하여 빅데이터의 활용성을 폭발적으로 높여주었다. 그래서 이 둘의 관계는 상호 보완 관계라고 볼 수도 있다. 빅데이터가 필요한 인공지능의 시대가 도래하였다.
한 통신회사가 인공지능(AI)을 활용해 콘텐츠가 아이에게 미치는 영향에 관한 내용을 발표했다. L사는 AI로 두 명의 미취학 아이를 구현했는데, 아이에게 서로 다른 콘텐츠를 제공했다. 한 명의 AI에는 아이용 콘텐츠를 제공했고, 다른 한 명에는 무분별한 콘텐츠 를 제공하는 방식이었다. 전자에서는 올바른 언어를 사용했다면, 후자에서는 어른이 사용하는 비속어를 사용한 것이다. 당연한 결과로 AI도 아이처럼 학습한 대로 행동하기 때문이다.
M사가 선보인 AI 챗봇 ‘테이(Tay)’를 예로 들어보면, M사는 테이를 선보인 지 16시간 만에 챗봇 서비스 제공을 중단했다고 한다. 이유는 테이가 인종차별 발언 등 막말을 서슴지 않았기 때문이다. 그런데 테이의 이러한 막말은 학습에 기반한 것이다. 즉, 테이에게 비속어와 인종·성 차별 발언을 되풀이해 학습시켰고, 그 결과 실제로 테이가 혐오 발언을 쏟아냈다.
실제로 M사는 개발과정에서 실수로 테이가 막말까지 학습하도록 설계돼 있었던 것이다.
이처럼 AI에서는 데이터 학습이 중요함을 알 수 있다. 더 나아가서는 AI가 빅데이터와 큰 연관이 있음을 알 수 있다. 따라서 직업보건의 빅데이터의 정확성을 신뢰할 수 없다면, 이러한 데이터로 인공지능이 학습하고, 이어서 쏟아지는 데이터로 학습과 분석을 지속하게 될 때, 인공지능의 빅데이터 분석결과와 대응 및 예측을 위한 정보는 큰 오류를 범할 것이다. 그렇게 되면, 빅데이터를 사용하여 작업자 건강 및 안전 증진은 큰 혼란에 빠질 수도 있다. 따라서 직업보건의 빅데이터에 관한 프레임 워크를 수립하여 빅데이터를 식별하고 수집하고 분석하여 작업자의 건강과 안전을 증진할 수 있는 적용방법을 갖추는 것이 필요하다.
빅데이터가 4차산업혁명 시대에 직업건강 보건의 발전을 위한 도구가 되어 직업보건에 필요하고 유익한 정보와 통찰력을 제공하는 접근 방식으로 진정한 가능성을 가지려면 지저분하고 대표성이 없는 데이터(messy and unrepresentative data)와 잘못된 결과(spurious findings)와 관련된 문제를 극복할 수 있어야 한다. 따라서 직업보건 분야에 종사하는 사람들은 작업환경 측정과 특수건강진단 및 각종 보건 활동의 기록과 보고를 신뢰할 수 있도록 정확하게 기록하고 관리하여 앞으로 빅데이터의 처리기술과 인공지능의 학습, 분석과 대응 및 예측를 위한 정보를 제공하여 통찰력을 얻을 수 있도록 해야 한다.
테이 사건이 발생한 이듬해인 2017년 초 세계적인 AI 전문가들은 미국 캘리포니아 아실로마에서 '미래 인공지능 연구의 23가지 원칙'을 발표했다. 이 원칙의 첫 번째는 'AI 연구의 목표는 방향성이 없는 지능을 개발하는 것이 아니라, 인간에게 유용하고 이로운 혜택을 주는 지능을 개발해야 한다'는 것이다. 이러한 원칙에 앞서서 직업보건 분야는 인공지능이 학습할 수 있는 정확하고 신뢰할 수 있는 데이터를 수집하여 보관하고 관리하는 원칙이 선결되어야 할 것이다. 우리는 과연 그동안 직업보건 분야에서 생산하고 있는 각종 자료들이 정확하여 신뢰할 수 있는가?
결론
작업환경측정자료나 특수건강진단자료 등의 다양한 직업보건 분야에서 생성되는 데이터의 신뢰성과 정확성이 떨어진다면 빅데이터의 유용한 데이터 처리기술과 인공지능은 무용지물이 될 수 있다. 더 나아가 잘못된 빅데이터로 학습하여 인공지능이 각인이 된다면 잘못된 대응과 예측으로 피해를 키울 수 있다. 인공지능이 정확하고, 신뢰할 수 있는 직업보건 관련 데이터를 수집하여 학습할 수 있도록 고심하여야 한다.