프로젝트

저소득 노인을 위한 천 원의 급식소 입지 선정 프로젝트(EDA, 전처리, AHP분석, 태블로/ 데이터분석을 처음한다면 참고하세요)

꿈이많은띵동이 2024. 1. 13. 17:58

2023 2학기에 진행했던 프로젝트
지식0인 상태로 태블로도 진행해보고 AHP분석도 진행해보고 얼마나 막막했는지...
처음으로 데이터분석을 해보는 분들이 있으면 참고하세요 특히 통계학과들 외부활동하면 보통 데이터분석을 많이 하니까 과정 참고만 하셔요

학교에서 자기주도진로프로젝트 3학점 수업이 있길래 내가 원하는 프로젝트를 하면서 학점도 채울 수 있다는 생각에 임하게 되었다
급하게 팀이 결성되고 팀원들도 갑자기 못 하겠다고 하던터라 결국 셋이서 진행하게 됐다



- 프로젝트 주제 선정 동기
심각한 취약계층 노인 결식률
결식아동 지원금에 비해 절반에도 못 미치는 지자체 노인 급식비
가속화 되는 고령화 속도
한국의 노인빈곤율은 43.2%로 OECD 평균 13.5%에 비해 3배 이상 높음
결식으로 이어지는 노인 빈곤
- 문제 해결
최근 숙명여대를 비롯한 145개 대학에서서 ‘천원의 아침밥’ 확대 시행
고령화 인구가 많아지는 추세인 것에 비해 예산은 한정적이라는 한계점이 있다고 파악 ⇒ ‘천원의 급식소’로 더 많은 급식 기회를 제공할 수 있지 않을까?

(발표 대본으로 대체하겠습니다 ㅋㅋ)
저희는 한국의 높은 노인빈곤율과 이로 인해 발생하는 취약계층 노인들의 심각한 결식 문제를 인지했습니다. 최근 대학들에서 시행중인 ‘천원의 아침밥’을 아시나요? 고령인구가 증가하는 추세에 비해 복지 예산은 한정적이라는 것 또한 노인 결식의 문제점으로 보고, ‘천원의 아침밥’에서 착안한 ‘천원의 급식소’를 해결책으로 생각해보게 되었습니다. 이렇게 ‘천원의 급식소’ 운영이 더 많은 노인들에게 급식 기회를 제공할 수 있을 것이라는 가정에서 출발하여, 급식소의 최적의 위치를 탐색해보는 프로젝트를 진행하게 되었습니다.

- 데이터 목록
1) 자치구 클러스터링 목적 데이터
서울시 고령자 현황 통계
행정동별 가구 평균 소득
서울시 사회복지시설(노인주거복지시설) 및 생활인원 및 관련 목록
서울시 사회복지시설(재가노인복지시설) 및 생활인원 및 관련 목록
자치구별 무료급식소 개수
2) 행정동별(2023년 자료)로 행정동 후보군 선택을 위해 사용할 데이터
국민기초생활보장 및 수급자 통계 자료
부양비 및 노령화지수
독거노인 현황 통계
고령자 현황 통계
3) 기타
서울특별시 행정동 내 경로당

- 전처리
1) 자치구 클러스터링을 위한 전처리 과정
서울시 고령자 현황 통계에서 65세 이상 인구 중 외국인 제외하고 남자와 여자의 수를 합산함
행정동별 가구 평균 소득 데이터를 자치구별 가구 평균 소득으로 전처리

행정동 기준으로 수집된 평균소득을 자치구 기준으로 이용하기 위해 전처리

각 자치구 내의 행정동 개수만큼 나누어 (+행정동 개수만큼 나눈 이유) 자치구별 평균 소득 산정하기

• 서울시 사회복지시설 개수를 산정하기 위해 노인주거복지시설 개수와 재가노인복지시설 개수를 합산 (사회복지시설 개수 = 노인주거복지시설 개수 + 재가노인복지시설 개수)

• 모든 자치구에 노인주거복지시설이 존재하지 않기 때문에 결측값을 0으로 처리한 후 재가노인복지시설과 합산한 결과

자치구 클러스터링 목적으로 전처리한 데이터프레임 최종 결과

(전처리 과정 잠깐 넘어가고)
- EDA(시각화)

상관관계

노인인구수와 노인복지시설개수 사이에 매우 강한 상관관계, 노인인구수와 무료급식소개수, 노인복지시설개수와 무료급식소개수 사이에 강한 상관관계, 평균소득과 노인복지시설개수 사이에 약한 상관관계가 보임
→ 그러나 자치구 데이터는 군집분석을 하기 위해 사용될 뿐 회귀분석을 하지 않기 때문에 상관관계에 대해 확인만 할 뿐 다중공선성과 관련한 문제는 생략함

- 클러스터링 분석

군집 분석 하기 전에 박스플롯을 그려본 결과, 변수들이 각자 다른 단위를 가지고 있음을 확인
→ 변수들의 단위 차이로 인해 노인인구수를 더 중요한 변수나 영향력이 높은 변수로 인식될 가능성을 제거하고자 스케일링을 수행함


Standard Scaler는 관측값들의 평균을 0, 분산을 1로 스케일링함
관측값들을 정규분포로 변환해주고, 관측값의 최대값과 최소값을 제한하지 않음
이상치에 민감하나 각 변수의 이상치가 유의미하다고 판단하여 제거하지 않기로 함

표준화 결과

1. k-means
Kmeans Clustering은 특정한 임의의 지점을 선택해 군집 중심점을 설정하고, 해당 중심에 가장 가까운 포인트 들을 선택하는 군집화 기법
군집 내 오차제곱합(SSE)의 값이 최소가 되도록 클러스터의 중심을 결정해나감
ELBOW 기법: 클러스터의 개수를 늘려가며 SSE를 계산하고, SSE 값이 줄어드는 비율이 급격하게 작아지는 직전의 k를 군집의 개수로 설정

2. 계층 분석
군집의 개수를 모를 때 사용하는 클러스터링 분석으로 자신만의 군집에서 시작하여 유사한 데이터들을 하나의 군집으로 묶고, 모든 데이터가 하나의 군집으로 묶일 때까지 반복하는 군집화 방법
합병에 의한 방법과 분할에 의한 방법이 있으나 합병에 의한 방법으로 진행함

그러나 k=3 계층적 군집 결과보다 k-means 계층적 군집 결과가 더 군집이 잘 되었다고 판단이 됨
→ k-means 군집 분석 선택

group1 = ['동대문구','중랑구','성북구','강북구','도봉구','노원구', '은평구', '서대문구', '마포구','양천구','강서구','구로구','금천구', '영등포구','동작구','관악구','강동구']
group2 = ['종로구','중구','용산구','성동구','광진구']
group3 = ['서초구','강남구','송파구']
→ 클러스터링 결과 k=3인 k-means를 통해 group1, group2, group3 설정

- 군집 특징
group1= 노인 인구 비율이 높고, 소득은 낮음-보통인 자치구역
group2= 노인 인구 비율이 낮고, 소득은 보통인 자치구역
group3= 노인 인구 비율이 보통-높음이고, 소득은 높음인 자치구역
→ 군집의 특징을 고려하여 급식소의 개수를 정한다면 group1에 많이, group2에 보통, group3에 상대적으로 적게 설정할 수 있음
→ group1의 각 자치구 당 4개, group2와 group3의 각 자치구 당 3개로 결정

- (이어서 행정동 전처리)
행정동을 각 그룹별로 3개의 데이터프레임으로 나눠서 따로 따로 분석 진행
• 실제 행정동명과 다르게 기입되어 있는 오류를 해결하기 위해 올바른 명칭으로 수정함(정능1동→정릉1동)
• 결측값이 ‘-’로 되어있는 경우의 일부 사진이며 각 자치구의 평균소득이 상대적으로 높고, 기초생활수급자, 저소득노인이 아닌 일반에 속한 데이터값이 많다는 것을 보아 결측치를 0으로 대체하기로 하였음
• group3의 강남구 행정동 중 하나인 개포3동이 ‘기초생활수급자인원’과 ‘노년부양비’가 결측값으로 확인 → 각 변수의 ‘강남구’의 평균으로 결측값을 대체하였음



- 다중공선성 확인(VIF를 통해)

분산팽창지수(VIF): 다중 회귀 모델에서 독립 변수간 상관 관계가 있는지 측정하는 척도
VIF>10인 경우 다중공선성이 있다고 판단 → 변환이나 제거를 통해 해결

→ 모든 그룹의 대부분의 변수 vif가 10을 넘음

표준화 후 독거노인 수를 제거하여 모든 변수의 VIF를 10이하로 만듦

- AHP분석
의사결정계층(Decision Hierarchy)을 설정하고, 계층구조를 구성하고 있는 요소간의 쌍대비교에 의한 판단을 통하여 평가자의 지식, 경험 및 직관을 이용하여 복수의 기준이 존재하는 상황에서 의사결정하기 위한 분석
이 방법은 평가자가 선택할 수 있는 여러 대안들을 체계적으로 순화시키고, 그 가중치를 비율척도로 도출하는 방법으로 진행

AHP분석을 위해 설문지 작성
요양보호센터, 경로당 관계진(직원) 및 어르신들의 의견을 수렴하여 각 요인의 상대적 중요도 평가

 

- AHP 분석의 일관성 검정
• 일관성 검정
일관성 검정: 설문 응답자가 얼마나 설문에 일관성이 있게 응답을 했는지를 의미하는 것
CR < 0.1일 경우:
쌍대 비교 행렬에 합리적인 일관성이 있음.
0.1 < CR < 0.2일 경우:
비일관성이 용납 가능한 수준임.
0.2 < CR일 경우:
일관성이 부족해 재조사가 필요함.

일관성 지수(CR)이 0.007로 0.1보다 작기 때문에 쌍대 비교 행렬에 합리적인 일관성이 있다고 판단할 수 있음

무료급식소개수 변수의 부호만 음수(-)인 이유는 무료급식소가 많을수록 천 원의 급식소 필요지수가 낮아지기 때문에 반비례 관계를 가져서 음수로 표현

결론은 장려상 탔다!!!!!!!!
발표도 약간 실수했고 다른 팀들 발표 들으면 위축되기도 하고 나름대로 기대하면서 또 실망하기 싫어서 약간의 자기방어식으로 못 받을 수도 있겠다 싶었는데 장려상 탔다!!!!!
한 학기동안 프로젝트를 진행하면서 느낀 점은 이전에 했던 활동들과 비교했을 때 제일 성장할 수 있었던 거 같다
데이터 분석 및 시각화 능력뿐만 아니라 협업 능력 및 타인과의 소통 능력이랄까...

이번에 진행한 프로젝트는 현실성이 있다고 생각되어서 데이터 시각화에 그치지않고 더 활용할 수 있는 방향을 고려해보고자 한다
프로젝트 주제를 생각할 때마다 '사회적 약자'를 위한게 무엇이 있을까에 포커스를 두는 것 보면 앞으로 나의 방향은 평등인 것 같다

내가 생각하는 유토피아는
모두가 소외받지 않고, 기본권이 보장된 사회에서 살 수 있는 곳