Vol.31 No.1 2024 Jan
지난호 보기
직업건강 이야기

연속기획

  • 웹진
  • 직업건강 이야기
  • 연속기획
  • band
  • blog
  • kakao
  • facebook
  • youtube
  • insta

본문

직업보건에서 위험도 평가를 위한
빅데이터 분석방법(2)

글. 김수근

  • 의학박사 / 직업환경의학전문의

서론

지난 호에는 빅 데이터 분석방법으로 ‘1. 예측 분석(Predictive Analytics)’에 대해서 알아보았다. 이어서 이번 호에는 다른 분석 방법으로 ‘2. 베이지안 네트워크(Bayesian Networks)’을 소개하고자 한다.
이와 같이 빅 데이터를 분석하는 구체적인 방법들을 이해하여, 앞으로 실무에 활용하는 데 기초가 되기를 바란다.

베이지안 네트워크(Bayesian Networks)

베이지안 네트워크는 직업적 위험에 영향을 미치는 다양한 요인 간의 복잡한 관계를 표현하고 분석하는 데 사용할 수 있는 확률적 그래픽 모델이다. 장비, 환경 조건, 작업자 행동 및 기타 변수에 대한 데이터를 통합하여 특정 위험의 가능성을 평가할 수 있다.

베이지안 네트워크는 직업적 위험에 기여하는 요인 간의 복잡한 종속성을 포착할 수 있는 확률적 그래픽 모델이다. 이는 사고 및 질병으로 이어지는 여러 변수의 결합 확률을 평가하는 데 유용하다.

베이지안 네트워크(Bayesian network) 혹은 빌리프 네트워크(영어: belief network) 또는 방향성 비순환 그래픽 모델(영어: directed acyclic graphical model)이라고 하며, 이것은 랜덤 변수의 집합과 방향성 비순환 그래프를 통하여 그 집합을 조건부 독립으로 표현하는 확률의 그래픽 모델이다. 예를 들어, 베이지안 네트워크는 질환과 증상 사이의 확률관계를 나타낼 수 있다. 증상이 주어지면, 네트워크는 다양한 질병의 존재 확률을 계산할 수 있다.

베이지안 네트워크(Bayesian network) 다음의 세 개 특징을 강조하며 만들어졌다.

  • (1) 입력 정보의 주관적인 특성
  • (2)정보를 갱신하기 위한 기초로 베이지안 조건에 의존함
  • (3) 추론의 원인과 증거 사이의 구분

형식적으로, 베이지안 네트워크는 방향성 비순환 그래프로서, 그래프의 각 마디(node)는 변수를 나타내고, 마디를 연결하는 호(arc)는 변수 간의 조건부 의존성(conditional dependency)을 표현한다. 마디는 측정된 모수, 잠재 변수, 가설 등 어떤 종류의 변수든 표현할 수 있다.

예를 들어서 잔디가 젖을 수 있는 두 가지 이벤트(스프링클러 혹은 비)가 있다고 하자. 또한, 비는 스프링클러의 사용과 같은 효과를 갖는다고 하자(비가 올 땐 보통 스프링클러를 끈다). 이 상황을 베이지안 네트워크로 표현 모델링할 수 있다. 모두 세 개의 변수가 T(true)와 F(false)로 두 개의 확률값을 갖는다. 결합 확률 함수는 다음과 같다.

P(G,S,R)=P(GIS,R)P(SIR)P(R)

여기서 G는 잔디의 젖음을, S는 스프링클러를, R은 비를 간략화하여 표기한 것이다.
이 모델은 조건부확률식과 모든 장애 변수를 합함에 의하여 “잔디가 젖었다면 비였을 확률이 몇이냐?”는 질문에 답할 수 있다.
베이지안 네트워크에서는 추론과 학습을 수행하기 위한 효과적인 알고리즘이 존재한다.

빅 데이터를 사용하여 직업적 위험 평가를 위하여 베이지안 네트워크를 활용하려면 이러한 네트워크를 효과적으로 구축, 검증 및 활용하기 위한 여러 단계가 필요하다. 빅 데이터를 활용한 위험도 평가에서 베이지안 네트워크를 활용하는 방법에 대한 단계별 가이드는 다음과 같다.

  • 1) 데이터 수집 및 준비(Data Collection and Preparation)

    과거 사고 데이터, 환경 조건, 작업자 행동, 장비 상태 및 기타 관련 변수를 포함하여 산업보건안전과 관련된 관련 빅 데이터 소스를 수집한다.
    누락된 값, 이상치, 불일치를 처리하기 위해 데이터를 정리하고 전처리를 한다.

  • 2) 변수 선택(Variable Selection)

    직업적 위험을 평가하는 데 중요한 변수를 식별한다. 이러한 변수에는 작업장 조건, 작업자 인구통계, 보건안전 프로토콜 등과 같은 요소가 포함될 수 있다

  • 3) 베이지안 네트워크 구조 학습(Bayesian Network Structure Learning)

    기계 학습 알고리즘을 활용하여 데이터에서 베이지안 네트워크의 구조를 학습한다. 이러한 목적으로 사용할 수 있는 알고리즘은 PC 알고리즘, Hill-Climbing, 제약 기반 접근 방식 등 다양한 알고리즘이 있다.
    데이터에서 관찰된 조건부 종속성을 기반으로 변수 간의 관계(가장자리)를 정의한다.

  • 4) 매개변수 추정(Parameter Estimation)

    데이터를 기반으로 베이지안 네트워크의 각 노드에 대한 조건부 확률 분포(모수)를 추정한다. 여기에는 데이터의 증거를 바탕으로 사건의 가능성을 계산하는 작업이 포함된다.

  • 5) 모델 검증(Model Validation)

    데이터를 훈련 및 테스트 세트로 분할(또는 교차 검증 사용)하여 베이지안 네트워크 모델의 성능을 평가한다.
    정확성, 정밀성, 재현율 및 기타 관련 측정항목을 평가하여 모델이 데이터의 기본 종속성을 적절하게 포착하는지 확인한다.

  • 6) 모델 해석(Model Interpretation)

    베이지안 네트워크 구조를 해석하여 변수 간의 인과 관계를 이해한다. 이 단계는 직업적 위험에 기여하는 주요 요인을 식별하는 데 필수적이다.

  • 7) 위험 평가(Risk Assessment)

    훈련된 베이지안 네트워크를 활용하여 직업적 위험을 평가한다. 특정 입력(예: 작업장 조건, 작업자 행동)이 주어지면 네트워크는 사고 가능성이나 특정 결과를 계산할 수 있다.
    변수의 변화가 위험 확률에 어떤 영향을 미치는지 이해하려면 민감도 분석을 수행한다.

  • 8) 시나리오 분석(Scenario Analysis)

    베이지안 네트워크를 사용하여 시나리오 분석을 수행한다. 다양한 보건안전 개입, 작업 관행 변경 또는 직업적 위험에 대한 외부 요인의 영향을 평가한다.

  • 9) 지속적인 학습 및 업데이트(Continuous Learning and Updating)

    새로운 데이터가 제공되면 베이지안 네트워크 모델을 지속적으로 업데이트한다. 이를 통해 모델은 변화하는 작업장 조건을 반영하는 데 있어 관련성과 정확성을 유지한다.

  • 10) 시각화 및 보고(Visualization and Reporting)

    베이지안 네트워크 구조 및 위험 평가의 시각화를 생성하여 결과를 이해관계자에게 효과적으로 전달한다. 시각화는 의사결정과 안전 계획에 도움이 될 수 있다.

  • 11) 윤리 및 개인 정보 보호 고려 사항(Ethical and Privacy Considerations)

    직업적 위험 평가를 위한 빅 데이터 수집 및 사용이 개인 정보 보호 규정 및 윤리 기준을 준수하는지 확인한다. 민감한 정보를 적절하게 익명화하고 보호한다.

  • 12) 의사결정 지원 시스템과 통합(Integration with Decision Support Systems)

    베이지안 네트워크 모델을 의사 결정 지원 시스템이나 보건안전 관리 도구에 통합하여 안전 전문가와 작업자에게 실시간 위험 평가 및 지침을 제공한다.

빅 데이터를 사용하여 직업적 위험 평가를 위한 베이지안 네트워크를 평가하는 것은 작업장 보건안전에 대한 귀중한 통찰력을 제공할 수 있는 복잡하지만 강력한 접근 방식이다. 모델을 정기적으로 업데이트하고 새로운 데이터를 통합하여 해당 모델이 직업적 위험을 관리하고 줄이도록 적절하고 효과적인 도구로 유지되게 한다.