연속기획
본문
직업보건영역의 빅데이터와 관리
글. 김수근
- 의학박사/직업환경의학전문의
서론
지난 호에 직업보건의 빅데이터와 AI의 관계에 대해서 알아보았다. 빅데이터(Big Data) 분석에서 빠질 수 없는 부분이 인공지능(Artificial Intelligence)이고, 인공지능에서 빠질 수 없는 부분도 빅데이터인 시대가 된 것이다. 데이터는 AI의 생명줄이다. AI 시스템이 제 기능을 하려면 데이터로 학습해야 한다.
이번에는 직업보건에서 빅데이터가 무엇인지, 어떻게 수집하고 저장하고 관리하고 분석하는지 등 빅데이터의 활용 등에 대해서 알아보고자 한다.
단순한 데이터의 양을 넘어서, 수집되는 데이터의 복잡성은 데이터 아키텍처 배열, 데이터 관리, 통합 및 분석에 문제를 제기한다. 그러나 소셜 미디어 콘텐츠, 비디오 또는 운영 로그와 같이 비정형 데이터 소스를 트랜잭션과 같은 기존의 정형 데이터와 결합하는 조직은 컨텍스트 추가와 함께 참신하고 폭넓은 통찰력을 생성하여 더 나은 의사결정을 할 수 있게 한다. 이러한 빅데이터 관리 방법으로, 사업장에서는 직업보건관리를 위해 가공되지 않은 데이터를 매우 빠르고 정확하게 통계자료로 전환할 수 있다.
빅데이터의 관리
01빅데이터의 유형
빅데이터는 일반적으로 구조 및 색인 편리성 여부에 따라 세 가지 유형으로 분류된다.
-
1) 정형 데이터
이 유형의 데이터는 조직화와 검색이 가장 간편하며, 인구통계 상세정보, 검진 항목별 결과 정보 등이 포함된다. 대표적인 예로 행과 열의 레이아웃이 사전 정의된 엑셀 스프레드시트가 있다. 이는 범주화가 쉬워서 데이터베이스 설계자와 관리자가 검색하거나 분석 알고리즘을 간단히 정의할 수 있다. 정형 데이터는 규모가 매우 크더라도 빅데이터라고 할 수는 없다. 정형 데이터 그 자체로는 관리가 간단하여 빅데이터 정의 요건을 충족하지 못하는 것이다.
-
2) 비정형 데이터
소셜 미디어 게시글, 오디오 파일, 이미지, 주관식 작업자 의견 등이 포함된다. 이러한 유형의 데이터는 표준적인 행-열 관계형 데이터베이스로, 포착하기가 쉽지 않다. 전통적으로 대량의 비정형 데이터를 검색· 관리·분석하는 것은 공수가 많이 드는 수작업 프로세스를 사용해야 했다. 이것을 분석·이해하여 얻을 수 있는 잠재적 가치는 있으나 비용과 시간이 많이 소요되어 결과를 얻기도 전에 무용지물이 되는 경우도 많았다. 비정형 데이터는 스프레드시트나 관계형 데이터베이스 대신에 데이터 레이크나 데이터 웨어하우스, 또는 NoSQL 데이터베이스에 저장된다.
-
3) 반정형 데이터
이름에서 알 수 있듯이 반정형 데이터는 정형·비정형 데이터의 하이브리드이다. 전자메일은 그 대표적인 예로써 비정형 데이터와 발신자 및 수신자, 그리고 제목, 날짜 등의 구조화된 속성도 포함된다. 지리 태그와 타임스탬프 및 시맨틱 태그를 사용하는 장치도 비정형 콘텐츠와 함께 정형 데이터를 제공할 수 있다. AI 기술로 구동되는 최신 데이터베이스는 이러한 유형의 데이터를 즉시 식별하며 실시간으로 알고리즘을 생성해 다양한 데이터를 효과적으로 관리·분석할 수 있게 한다.
02빅데이터의 소스
직업보건영역에서 빅데이터는 일반적으로 다양한 소스에서 수집된 대량의 구조화 및 비정형 데이터로 구성된다. 이 데이터에는 다음이 포함될 수 있다.
-
1) 직원 건강 데이터
직원 건강 평가, 의료 기록 및 기타 건강 관련 출처에서 수집한 데이터가 포함된다.
-
2) 직장 안전 데이터
사고 보고서, 안전 검사 및 작업장 안전과 관련된 기타 출처에서 수집된 데이터가 포함된다.
-
3) 작업환경 데이터
공기 질, 온도 및 소음 수준과 같은 작업장 환경 조건과 관련된 데이터가 포함된다.
-
4) 규제 준수 데이터
점검 보고서 및 규제 제출과 같은 규제 준수와 관련된 데이터가 포함된다.
-
5) 기타 데이터 소스
웨어러블 장치, 소셜 미디어 및 직원 행동 및 복지에 대한 통찰력을 제공하는 기타 소스의 데이터가 포함될 수 있다.
이러한 다양한 데이터 소스를 분석함으로써 사업주는 잠재적 위험에 대한 통찰력을 얻고, 개선을 위한 영역을 식별하며, 직장 건강 및 안전을 향상하기 위한 데이터 중심 결정을 내릴 수 있다.
03빅데이터 저장
직업보건의 빅데이터를 저장하는 것은 많은 양의 데이터로 인해 어려울 수 있다. 다음은 산업 보건에 대한 빅데이터를 저장하고 관리하기 위한 몇 가지 전략이다.
-
1) 클라우드 스토리지
Amazon S3, Microsoft Azure 또는 Google Cloud Storage와 같은 클라우드 스토리지 솔루션은 빅데이터를 위한 확장 가능하고 비용 효율적인 저장 방법을 제공할 수 있다. 또한 이러한 솔루션은 데이터 백업 및 복구, 액세스 제어 및 데이터 암호화와 같은 기능을 제공할 수 있다.
-
2) HADOOP 분산 파일 시스템 (HDFS)
HDFS는 빅데이터를 저장하고 관리하기 위해 특별히 설계된 오픈소스 분산 파일 시스템이다. HDFS는 대량의 구조화 및 비구조화 데이터를 저장하고 관리하는데 사용될 수 있으며 데이터 복제, 결함 허용성 및 확장성과 같은 기능을 제공한다.
-
3) NOSQL 데이터베이스
MongoDB 또는 Cassandra와 같은 NOSQL 데이터베이스를 사용하여 대량의 구조화되지 않은 데이터를 저장하고 관리 할 수 있다. 이 데이터베이스는 확장성 및 고가용성을 위해 설계되었으며 자동 샤드, 복제 및 데이터 압축과 같은 기능을 제공할 수 있다.
-
4) 데이터웨어 하우스
데이터웨어 하우스를 사용하여 여러 소스에서 구조화된 데이터를 저장하고 관리 할 수 있다. 이것은 직원 건강, 안전사고 및 작업환경 조건에 대한 데이터를 저장하는 데 사용될 수 있으며 보고 및 분석에 사용될 수 있다.
선택한 빅데이터 저장 방법은 확장 가능하고 안전하며 해당 법률 및 규정을 준수해야 한다. 또한 재난 또는 기타 예기치 않은 이벤트 시 데이터 손실을 방지하기 위해 적절한 데이터 백업 및 복구 절차가 있는지 확인해야 한다.
04빅데이터의 관리
빅데이터에서 직업보건관리의 통찰력을 얻으려면 데이터를 효과적으로 관리할 수 있어야 한다. 빅데이터는 데이터 정확성, 정밀도 및 신뢰성의 정도를 나타내는데, 비정형 데이터 소스 분석 시에도 새로운 통찰력을 얻을 수 있으므로 모든 데이터가 고도로 선별되고 정리되어야 한다는 것은 아니다. 그러나 데이터 담당자와 의사 결정권자 모두 통찰력 생성과 의사결정에 이용되는 데이터의 품질, 정확성 및 신뢰성을 알고 있어야 한다.
빅데이터 분석은 비즈니스 전반에서 가치 있는 통찰력을 발견할 수 있는 기회를 증가시켰지만 정보 수집, 저장 및 액세스에 있어 새로운 과제도 제시했다. 빅데이터 분석 시대에 데이터양의 기하급수적 증가와 데이터 다양성, 데이터 축적 및 변경 속도로 인해 문제들이 야기되었다. 그러나 이러한 변화로 인해 데이터 저장 및 분석 소프트웨어에 대한 요구가 증가하여 새로운 과제로 대두되었으며, 빅데이터 분석을 구현할 수 있는 좋은 기회를 창출하기도 한다. 데이터 관리는 마스터 데이터 관리와 데이터 시각화, 그리고 데이터 카탈로그와 셀프서비스 데이터 준비 및 랭글링1) 등의 도구를 사용하여 데이터의 일관된 접근·전달·거버넌스·보안을 지원함으로써 조직의 요구 사항을 충족할 수 있다. 이 가치를 실현하기 위해 빅데이터를 수집하고 저장하는 능력을 높이고 해당 데이터를 직업보건관리를 위한 통찰력으로 전환하기 위해 빅데이터 수집 및 관리 분석에 투자해야 한다.
빅데이터 활용
직업보건영역에 빅데이터를 적용할 수 있는 몇 가지 방법이 있다.
01예측 분석
빅데이터는 작업장 사고 및 부상의 가능성을 예측하는 데 사용될 수 있다. 과거 사건의 데이터를 분석함으로써 사업주는 사고로 이어질 수 있는 패턴과 위험 요소를 식별할 수 있다. 이 정보는 예방 조치를 구현하고 사업장 안전을 개선하는 데 사용될 수 있다.
02건강 모니터링
빅데이터는 직원 건강을 모니터링하고 잠재적인 건강 위험을 식별하는 데 사용될 수 있다. 예를 들어, 웨어러블 장치는 심박수, 수면 패턴 및 활동 수준을 추적하여 잠재적인 건강 문제를 식별하는 데 사용할 수 있는 귀중한 데이터를 제공한다.
03위험성 평가
빅데이터는 사업장에서 위험성 평가를 수행하는 데 사용될 수 있다. 사고 보고서, 직원 건강 기록 및 작업환경 데이터를 포함한 다양한 출처의 데이터를 분석함으로써 사업주는 잠재적 위험을 식별하고 이러한 위험 완화 조치를 구현할 수 있다.
04규제 준수 모니터링
데이터를 사용하여 건강 및 안전 규정 준수를 모니터할 수 있다. 점검 및 감사자료나 기타 항목에서 데이터를 분석함으로써 사업주는 규제 요구 사항에 미치지 못하는 영역을 식별하고 시정 조치를 취할 수 있다.
전반적으로, 직업보건에 빅데이터를 적용하면 사업주가 잠재적 위험을 식별하고 직장보건안전을 개선하며 직원 건강 및 복지를 촉진하는 데 도움이 될 수 있다.
- 1)데이터 랭글링은 불완전하거나 복잡하거나 지저분할 수 있는 다양한 데이터 소스의 데이터를 모아 쉽게 액세스하고 분석할 수 있도록 정리하는 프로세스이다.