프로젝트

[R분석] 경시적 자료 분석을 통해 기업 재무 성과 조사(랜덤절편모형, 랜덤절편랜덤기울기모형, AR(1)모형)

꿈이많은띵동이 2024. 7. 29. 17:52

의생명 통계 수업 기말프로젝트는 경시적자료분석과 생존분석 중 하나를 선택해서

스스로 데이터를 찾아 분석해보는 것

 

경시적자료분석을 하기로 결정!

경시적자료분석을 하기로 결정한 이유

1. 수업시간에 의료데이터만 이용했기 때문에 다른 분야의 데이터 분석 욕구가 컸음

2. 경시적자료분석은 다른 분야(기업, 나무, 동물 등)의 데이터가 많았음

 

그 중 기업 데이터를 분석해서 기업 재무 성과에 영향을 주는 공변량을 알아보기로!

그 이유는

1. 한 번도 접해보지 않은 분야를 경험해보고 싶었음

2. 실질적인 비즈니스 인사이트를 얻을 수 있을 것이라 판단

3. 주식 공부를 한 적이 있는데 재무성과표의 단어들이 하나도 이해가 안돼서 포기했던 시절이 떠올라서...ㅋㅋ

 

결론: 경시적자료분석을 통해 기업 재무 성과에 영향을 미치는 공변량을 식별해보는 것

 

23개의 데이터 중

반응변수: 당기순이익(회사의 전반적인 재무 성과를 평가) 선택

당기순이익은 모든 비용(운영 비용, 이자 비용, 세금 등)을 차감한 후 회사가 벌어들인 최종 이익을 의미하고,

회사의 전반적인 재무 상태와 운영 성과를 가장 잘 보여주는 지표

당기순이익은 회사가 얼마나 효율적으로 자원을 사용하여 이익을 창출하는지를 보여줌

당기순이익을 통해 회사의 주당순이익(EPS)을 계산하고, 이를 통해 회사의 주식 가치와 수익성을 평가함

-> 당기순이익은 투자 결정을 내리는 중요한 지표, 회사 성장 가능성 평가 지표

 

당기순이익과 직접적으로 연관이 있는 변수 제외

Earnings Per Share (EPS, 주당순이익):

EPS는 당기순이익을 주식 수로 나눈 값이므로, 직접적으로 당기순이익과 연관

ROE (Return on Equity, 자기자본이익률):

ROE는 당기순이익을 자기자본으로 나눈 비율입니다. 당기순이익을 포함

ROA (Return on Assets, 총자산이익률):

ROA는 당기순이익을 총자산으로 나눈 비율입니다. 역시 당기순이익을 포함

Net Profit Margin (순이익률):

순이익률은 당기순이익을 매출액으로 나눈 비율입니다. 당기순이익과 직접적인 연관

등등

 

 

처음에 Year 변수를 원데이터 그대로 분석에 이용했더니 회귀계수가 10000이 넘었다.

얼마나 당황스럽던지

교수님 연구실에 들락날락하면서 자문을 자주 구했는데(수강생 중 나만...)

기본이라면서 당연히 스케일링을 해야한다고 이건 당연한거라고 하셨다. 

지금이라도 알아서 다행이라고 생각했는데 다른 친구들 발표하는 거 보면 다 스케일링을 안했다.

실제로 분석을 해보는 경험 & 교수님께 질문하면서 공부하는 것이 중요하다는 걸 새삼 느꼈다.

 

 

대부분의 설명변수가 비율이다보니 -1~1 사이의 값을 가진다.

돈과 관련된 변수들은 값이 상대적으로 너무 커서 스케일링없이 분석을 진행하면 또 회귀계수가 난리법석이었다.

논문을 찾아보면 (만)원, (천)원 이런 식으로 연구자의 주관에 따라서 다른 변수들과 단위를 맞춰주는 것 같았다.한 자리수로 만들어주기 위해 단위를 만 달러로 스케일링!

 

 

프로젝트 이전에는 보통 결측치 처리를 평균 혹은 중위수 값을 넣었다.

흔히 결측치 처리를 구글링 하다보면 8할 이상이 평균, 중위수를 대체하라고도 나와있고!

데이터에 따라 다르겠지만

내가 분석하고 있는 데이터는 경시적데이터이기 때문에 관측개체마다 반복측정을 하였고

시간적변화가 중요하다는 생각이 들었다.

 

마침 PYPL 기업의 MarketCap 추이를 보면 시간에 따라 증가하는 경향이 보여서

2014년에 평균, 중위수값을 무턱대고 넣으면 ??? 이런 느낌이 들어서

교수님께 자문을 구하고(교수님 감사합니다 껄껄 ㅎㅎ)

PYPL의 단순선형회귀식을 이용해 2014년일 때 MarketCap의 값을 예측해서 대입

 

통계분석 몰랐는데 재밌는거구만!!!!!!

역시 누구한테 배우냐가 중요하구나!!!!!!!!(흥분)

 

 

이 부분은 교수님께 칭찬 받았지롱

기업마다 당기순이익의 변화를 알아내면 심심했을텐데

기업의 Category를 나눠서 카테고리별로 당기순이익을 판단하면 더 흥미로운 결과가 나올 수 있다고 칭찬해주셨다.

 

키키...

칭찬 듣기 전엔 문제에 부딪히면 노트북 덮었는데

칭찬 들은 후로 문제에 부딪히면 어디에 도취해있는지 새벽까지 골몰하다 노트북 덮음(ㅋㅋ)

 

 

 

유의미한 변수를 선택하기 위해 후진제거법을 진행했는데

분석에 필요한 Year와 Category가 나오지 않았다.

설명변수간의 상관성이 큰 건 아닌지

후진제거법 전에 상관계수가 큰 설명변수는 삭제하고 다시 진행해야 한다고 판단이 들었다.

 

앞서 EDA를 확인하면 시간에 따라 당기순이익이 증가하는 추세였다.(사진에 첨부함)

그러나 랜덤절편 모형을 돌려보았을 때 Year의 회귀계수가 음수인 것을 보고

모델이 단단히 잘못되었구나.... 생각이 들었다.

 

금융 데이터 자체가 변수마다 다중공선성이 크기 때문에 설명변수 2개만 제거하는 것으로는 부족했나보다.

상대적으로 상관계수가 큰 설명변수 2개 더 제거하고 모형을 돌려보았다.

 

 

수업시간 때 교수님께서 랜덤절편 모형의 교호작용 유무를 AIC로 비교할 때

그냥 비교하는 것이 아니라 최대우도법을 이용해서 비교해야한다고 하셨다.

 

그 결과, 교호작용이 있는 모형의 AIC가 더 낮으므로 교호작용을 모형에 포함하자고 결론을 내렸다.

 

 

4가지 모형을 비교했을 때 AIC가 가장 낮은 교호작용을 포함한 랜덤절편으로 선택!

 

 

결론!!!!!!!!!!!!!!!!!!!!!!

ㅇㅏ 뿌듯해

 

이전에도 데이터 분석을 몇 번 경험해봤는데 그때와는 차원이 다른 카타르시스를 느꼈다.

우선 이전의 동기들과 학회친구들과 진행했던 데이터 분석은 비슷한 지식의 깊이를 가진 친구들끼리 하다보니

문제점에 부딪혀도 해결을 하지 못한 채 진행하던 경우가 태반이었다.

 

하지만 이번 수업에서는 수강생도 11명뿐이라 교수님이 질문도 잘 받아주셨고

처음으로 데이터분석의 오류를 알고, 그 오류를 해결해서 올바른 결과를 도출해보았다.

 

이번 분석을 하면서 정말 골머리 앓았던 것은

1. 결측치를 어떻게 대체할 지(-> 선형회귀를 통해 해결)

2. 회귀계수가 만단위가 나오는데 어떻게 해야하는 지(-> 단위를 바꿔서 해결)

3. 후진제거법에서 year 변수가 나오지 않는데 어떻게 해야하는 지(-> 다중공선성 제거)

 

였는데... 어쨋든 세 가지의 문제를 해결했으니!

 

그럼 안녕