Vol.30 No.6 2023 Nov
지난호 보기
직업건강 이야기

연속기획

  • 웹진
  • 직업건강 이야기
  • 연속기획
  • band
  • blog
  • kakao
  • facebook
  • youtube
  • insta

본문

직업보건에서 위험도 평가를 위한
빅데이터 분석방법(1)

글. 김수근

  • 의학박사 / 직업환경의학전문의

서론

지난 호에서는 빅데이터를 사용한 직업건강 위험성 평가의 수행 단계별 가이드를 제시하기 위한 데이터 수집과 통합단계까지 살펴보고, 다양한 자료원의 데이터 통합에 대하여 소개하였다. 다음으로는 데이터 분석과 위험요인 식별, 노출평가 등으로 위험도 평가의 단계별 가이드를 살펴볼 것이다.

빅데이터를 활용한 직업 위험성 평가 분석 방법에는 대규모 데이터 세트를 활용하여 작업장의 잠재적 위험을 식별, 평가 및 완화하는 것이 포함된다. 이러한 방법으로 고급 데이터 분석 및 통계 기술을 사용하여 조직 내 다양한 소스에서 수집된 방대한 양의 정보를 분석할 수 있다.
또한, 다양한 소스의 데이터를 통합하여 분석을 위한 포괄적인 데이터 세트를 만드는데, 이때에는 수집된 데이터를 정리하고 전처리하여 오류, 중복 및 불일치를 제거하게 된다.

빅데이터의 분석방법

위험도 평가에는 근로자의 안전과 복지를 보장하기 위해 다양한 작업장 활동 및 조건과 관련된 잠재적 위험을 평가하는 작업이 포함된다. 빅데이터 분석 및 통계 기법은 작업장 보건안전에 대한 심층적인 통찰력을 제공함으로써 위험도 평가의 정확성과 효율성을 향상시킬 수 있다. 빅데이터 맥락에서 위험도 평가를 위한 몇 가지 고급 데이터 분석 및 통계 기법은 예측 분석(Predictive Analytics), 베이지안 네트워크(Bayesian Networks), 생존 분석(Survival Analysis), 텍스트 마이닝 및 자연어 처리(NLP)(Text Mining and Natural Language Processing), 센서 데이터 및 IoT(Sensor Data and IoT), 클러스터링 및 이상 탐지(Clustering and Anomaly Detection), 공간 분석(Spatial Analysis), 시뮬레이션 및 몬테카를로 분석(Simulation and Monte Carlo Analysis), 딥러닝(Deep Learning) 및 의사결정 지원 시스템(Decision Support Systems) 등을 활용할 수 있다.

결과를 정확하게 해석하고 작업장 안전을 개선하기 위해 정보에 입각한 결정을 내리려면 이러한 고급 기술과 도메인 전문 지식을 결합하는 것이 필수적이다.

01예측 분석(Predictive Analytics)

예측 모델링은 과거 데이터를 사용하여 미래의 직업적 위험을 예측하고 추정함으로써 위험도 평가에서 중요한 역할을 한다. 이러한 모델은 잠재적인 위험요인을 식별하고, 안전 조치를 개선하고, 작업장 사고와 질병을 예방하는 데 유용한 도구이다. 위험도 평가에 사용되는 몇 가지 일반적인 예측 모델링 기술은 회귀, 의사결정 트리, 신경망과 같은 기계 학습 알고리즘을 사용하여 이러한 모델을 개발할 수 있다. 기계 학습 알고리즘은 대규모 데이터 세트를 분석하여 작업장 사고와 부상 및 질병 발생과 관련된 패턴과 추세를 식별할 수 있다.

  • 1) 로지스틱 회귀(Logistic regression)

    로지스틱 회귀는 사고 및 질병 발생 여부(예/아니요)와 같은 하나 이상의 독립 변수와 이진 결과(binary outcome) 간의 관계를 모델링하는 데 사용되는 기본 통계 기술이다. 사고와 질병 발생 가능성에 대한 다양한 요인의 영향을 평가하는 데 유용하다.

  • 2) 의사결정 트리(Decision Trees)

    의사결정 트리는 이벤트로 이어지는 결정 또는 결정을 모델링하는 데 사용된다. 위험도 평가에서 의사 결정 트리는 작업장 사고 및 질병에 기여하는 가장 중요한 요소와 상호 작용을 식별하는 데 도움이 될 수 있다.

  • 3) 랜덤 포레스트(Random Forests)

    랜덤 포레스트는 예측 정확도를 높이고 과적합을 줄이기 위해 여러 의사결정 트리를 결합하는 앙상블 학습 방법이다. 복잡한 데이터 세트를 처리하고 기능 중요성을 식별하는 데 효과적이다.

  • 4) SVM(Support Vector Machines)

    SVM은 과거 데이터를 기반으로 특정 유형의 사고 및 질병 발생을 예측하는 데 적용할 수 있는 분류 기술이다. SVM은 클래스 간 분리를 최대화하는 초평면을 찾는 것을 목표로 한다.

  • 5) 신경망(Neural Networks)

    인공 신경망과 같은 딥 러닝 기술은 직업적 위험에 대한 복잡하고 비선형적인 모델링에 사용될 수 있다. 이는 크고 다양한 데이터 세트를 처리할 때 특히 유용하다.

  • 6) 생존 분석(Survival Analysis)

    Kaplan-Meier 생존 곡선 및 Cox 비례 위험 모델과 같은 생존 분석 모델은 검열(아직 발생하지 않았거나 발생한 사건)을 고려하면서 사건과 질병 발생까지의 시간(예: 관찰되지 않은 작업장 사고 및 질병이 발생할 때까지의 시간)을 예측하는 데 사용된다.

  • 7) 베이지안 네트워크(Bayesian Networks)

    베이지안 네트워크는 직업적 위험에 기여하는 요인 간의 복잡한 종속성을 포착할 수 있는 확률적 그래픽 모델이다. 이는 사고 및 질병으로 이어지는 여러 변수의 결합 확률을 평가하는 데 유용하다.

  • 8) 시계열 분석(Time Series Analysis)

    시간에 따른 데이터를 처리할 때 시계열 분석을 사용하여 사고 발생 추세와 패턴을 예측할 수 있다. 자동 회귀 통합 이동 평균(ARIMA) 또는 계절 분해와 같은 기술을 사용할 수 있다.

  • 9) 회귀 분석(Regression Analysis)

    선형 및 비선형 회귀 모델을 사용하여 작업자 연령, 사용 장비 유형, 환경 조건 등 다양한 요인을 기반으로 사고 또는 부상 및 질병의 심각도를 예측할 수 있다.

  • 10) 앙상블 방법(Ensemble Methods)

    배깅 및 부스팅(bagging and boosting)과 같은 앙상블 방법은 여러 예측 모델을 결합하여 위험 평가의 정확성과 견고성을 향상시킬 수 있다.

  • 11) 이상 탐지(Anomaly Detection)

    단일 클래스 SVM 또는 격리 포레스트와 같은 이상 탐지 모델은 잠재적인 위험이나 안전 위반을 나타낼 수 있는 데이터의 비정상적인 패턴이나 이상치를 식별할 수 있다.

  • 12) 몬테카를로 시뮬레이션(Monte Carlo Simulations)

    몬테카를로 시뮬레이션은 다양한 시나리오를 모델링하고 다양한 조건에서 사고나 부상의 확률을 추정할 수 있다. 이 접근 방식은 위험 정량화 및 완화 계획에 도움이 된다.

예측 모델링 기술의 선택은 위험도 평가의 구체적인 목표, 사용 가능한 데이터의 성격, 작업장 환경의 복잡성에 따라 달라진다. 또한, 직업적 위험에 대한 포괄적인 관점을 제공하기 위해 다양한 모델과 기술을 조합하여 사용하거나 새로운 데이터를 사용할 수 있다. 따라서 작업장 조건이 변화함에 따라 이러한 모델을 정기적으로 검증하고 업데이트하는 것이 중요하다.

추가로 예측 유지보수 모델(Predictive maintenance models)을 사용하여 장비 고장을 예측하고 사고를 예방할 수 있다. 각종 인구와 질병 데이터를 이용하고, 사업장의 건강 유해요인에 관한 자료를 이용하여 근로자들의 향후 질병 발생 양상을 예측할 수 있다.