주가분석을 해보기 위해 KRX에 공개된 주가데이터를 이용했다.
데이터는 아래 KRX 정보데이터시스템 홈페이지에서 다운로드 받을수 있다.
http://data.krx.co.kr/contents/MDC/MAIN/main/index.cmd
KRX 정보데이터시스템
증권·파생상품의 시장정보(Marketdata), 공매도정보, 투자분석정보(SMILE) 등 한국거래소의 정보데이터를 통합하여 제공 서비스
data.krx.co.kr
1. 데이터 불러와 데이터 프레임 생성
본격적으로 주제를 정해 분석하기 전 자료의 내용을 확인하고 변수명을 변경
데이터 확인
원본 파일을 이용해 만들어진 데이터 프레임을 아래와 같이 확인
데이터 변수명 변경
원활한 데이터 탐색을 위해 한글로 된 변수명들을 영문으로 변경
이렇게 하면 본격적으로 데이터를 탐색할 준비가 되었다.
2. 시간에 따른 시가(Opening Price)의 산점도 파악
원하는 눈금 수를 10개로 지정하였으며 총 10개의 날짜에 따라 주식의 시가가 어떻게 분포되었는지 위와 같이 파악할 수 있었다.
3. 거래량의 박스플롯
거래량의 통계량 (최소값, 최댓값, 중앙값, 평균, 사분위수) 파악을 위해 박스플롯 확인
최댓값 최솟값을 기준으로 벗어난 자료가 있으므로 이상치를 해결할 필요가 있음
이번에는 가설을 설정하는 분석이 아니고 데이터 형태만 파악할 것이라 굳이 이상치 발생 문제를 해결하지 않음
4. 날짜와 거래량 간의 상관관계 파악
날짜 데이터와 숫자 데이터 간의 상관관계를 파악하기 위해 날짜 데이터를 정수형으로 변경해주었다.
정수형으로 변환한 날짜와 거래량 간의 상관계수를 구해준다.
날짜와 거래량 간에는 0.69 정도의 양의 상관이 존재한다.
상관계수를 시각적으로 표현하기 위해 heatmap 을 사용한다.
주식데이터는 어떻게 구성되어 있는지 다양한 통계량과 상관계수를 이용해 파악해 보았다.
'Python > 데이터분석 스터디' 카테고리의 다른 글
KRX 주식데이터를 이용한 일별수익률 / 주가등락 파악 (0) | 2024.04.24 |
---|---|
Finance DataReader 라이브러리 (0) | 2024.04.24 |