6 роки тому · a99f7281b7
--- a/src/main/python/kr/co/swh/lecture/opensource/stock/1-analysis-krx-RMSE.py
+++ b/src/main/python/kr/co/swh/lecture/opensource/stock/1-analysis-krx-RMSE.py
@@ -0,0 +1,124 @@
 
				+from sqlalchemy import create_engine

			
 
				+import pymysql

			
 
				+import pandas as pd

			
 
				+import numpy as np

			
 
				+

			
 
				+pymysql.install_as_MySQLdb()

			
 
				+engine = create_engine("mysql+mysqldb://root:"+"tokki1127"+"@127.0.0.1/stock", encoding='utf-8')

			
 
				+conn = engine.connect()

			
 
				+

			
 
				+df = pd.read_sql_query("select * from stock_trade where 종목코드 = '000660'", conn)

			
 
				+df.name = "주가변동"

			
 
				+print(df.head())

			
 
				+

			
 
				+import matplotlib.pyplot as plt

			
 
				+# 화면 크기

			
 
				+plt.figure(figsize=(16,8))

			
 
				+

			
 
				+# 인덱스 확인 (그래프의 X축 : DB로 부터 읽어온 값은 DataFrame으로 불러올 시, 0부터 숫자가 붙어있음)

			
 
				+print(df.index)

			
 
				+

			
 
				+# 날짜를 그래프 Y축으로, X축은 디폴트로 0부터 붙은 인덱스 값

			
 
				+#plt.plot(df['날짜'], label='종가 그래프')

			
 
				+

			
 
				+# 날짜 포맷 변경 

			
 
				+#df['날짜'] = pd.to_datetime (df.날짜, format = '%Y-%m-%d')    # 날짜 포맷이 동일하기 때문에 수행할 필요가 없음

			
 
				+

			
 
				+# 종가를 그래프 Y축으로, X축은 날짜

			
 
				+df.index = df['날짜']

			
 
				+plt.plot(df['종가'], label='종가 그래프')

			
 
				+#plt.show()

			
 
				+print(df)

			
 
				+

			
 
				+

			
 
				+

			
 
				+# 정렬

			
 
				+# df.sort_index() 는 인덱스인 날짜로 정렬

			
 
				+# df.sort_index(ascending=True, axis=0) 역시 인덱스 정렬

			
 
				+# df.sort_index(ascending=True, axis=1) 컬럼 이름으로 왼쪽부터 오른쪽으로 정렬

			
 
				+df = df.sort_index(ascending=True, axis=0)    # 수행하지 않아도 이미 DB로부터 읽어올 때 날짜로 정렬

			
 
				+

			
 
				+

			
 
				+

			
 
				+

			
 
				+# 날짜와 목표변수인 종가로 이루어진 DataFrame 만들기

			
 
				+

			
 
				+# Case1. 빈 DataFrame을 만든 후, 복사하기

			
 
				+

			
 
				+# 날짜와 목표변수로 빈 dataframe 만들기

			
 
				+new_data = pd.DataFrame(index=range(0, len(df)), columns=['날짜', '종가'])

			
 
				+print(new_data)

			
 
				+

			
 
				+# 날짜와 목표변수인 종가로 dataframe 에 df값 매칭

			
 
				+for i in range(0,len(df)):

			
 
				+     new_data['날짜'][i] = df['날짜'][i]

			
 
				+     new_data['종가'][i] = df['종가'][i]

			
 
				+print(new_data.head())  # 날짜와 종가에 대한 데이터

			
 
				+

			
 
				+

			
 
				+# Case2. 기존 DataFrame을 복사한 후, 불 필요한 컬럼 제거

			
 
				+# copy()함수에는 행 또는 열을 제거할 때 사용, axis=1일때 세로 축 삭제, axis=0일때 가로 축 삭제

			
 
				+# drop()함수에는 행 또는 열을 제거할 때 사용, axis=1일때 세로 축 삭제, axis=0일때 가로 축 삭제

			
 
				+new_data = df.copy(deep=True)

			
 
				+new_data = new_data.drop(['시가', '고가', '저가', '거래량', '종목코드'], axis=1)

			
 
				+new_data.index = range(len(df))

			
 
				+print(new_data.head())

			
 
				+

			
 
				+

			
 
				+

			
 
				+

			
 
				+# raw 데이터 생성 완료, 이후에는 validation과 train데이터를 통한 평균제곱근 오차 수행

			
 
				+

			
 
				+# 데이터를 train과 validation 세트로 분할하는 동안 '날짜' 요소가 손상되므로 임의 분할(random splitting)을 사용할 수 없음

			
 
				+# 작년의 데이터를 validation 세트로 설정하고 4년 전의 데이터를 train 세트로 설정

			
 
				+

			
 
				+# splitting into train and validation

			
 
				+print(new_data['날짜'] < '2019-01-01')

			
 
				+train = new_data[new_data['날짜'] < '2019-01-01']

			
 
				+valid = new_data[new_data['날짜'] >= '2019-01-01']

			
 
				+

			
 
				+# shapes of training set

			
 
				+print('\n Shape of training set:')

			
 
				+print(train.shape)

			
 
				+

			
 
				+# shapes of validation set

			
 
				+print('\n Shape of validation set:')

			
 
				+print(valid.shape)

			
 
				+

			
 
				+# validation 세트에 대한 예측을 만들고, 실제 값을 사용하여 RMSE(평균 제곱근 오차)을 점검

			
 
				+# validation 세트에 대한 예측 (Observed value값의 범위를 valid.shape[0] 로 선정)

			
 
				+print('유효성 검사를 위한 행의 수 : %d' % valid.shape[0])

			
 
				+validRaw = valid.shape[0]

			
 
				+preds = []  # 훈련 셋을 각 구간(Observed value값) 마다 이동평균 값을 저장

			
 
				+for i in range(0, validRaw):

			
 
				+    a = train['종가'][len(train) - validRaw + i:].sum() + sum(preds)

			
 
				+    b = a / validRaw

			
 
				+    preds.append(b)

			
 
				+print(preds)

			
 
				+print(len(preds))

			
 
				+

			
 
				+# 실제 값을 사용하여 RMSE(평균 제곱근 오차)을 점검

			
 
				+rms = np.sqrt(np.mean(np.power((np.array(valid['종가']) - preds), 2)))

			
 
				+print('\n RMSE value on validation set:')

			
 
				+print(rms)

			
 
				+

			
 
				+

			
 
				+

			
 
				+# RMSE를 확인하는 것만으로는 모델의 성능을 이해하는 데 도움이되지 않습니다. 

			
 
				+# 더 직관적으로 이해하기 위해 이것을 시각화 해 봅시다. 여기에 실제 값과 함께 예측 된 값의 도표을 확인

			
 
				+# Pandas에서는 파생 DataFrame에 수정을 가하는 것을 권장하지 않습니다.(그래서 경고를 띄우는 것이죠.) 

			
 
				+# 대신 Pandas는 copy() 메서드를 통해 파생 DataFrame에 독립적인 메모리를 부여한 뒤 여기에 수정을 가하도록 유도하지요.

			
 
				+#valid['예측'] = 0

			
 
				+#valid['예측'] = preds

			
 
				+#print(valid)

			
 
				+

			
 
				+valid = valid.copy();

			
 
				+valid['예측'] = preds

			
 
				+print(valid)

			
 
				+#train.index = train['날짜']

			
 
				+print(train.index)

			
 
				+plt.plot(train['종가'])

			
 
				+#plt.show()

			
 
				+print(valid.index)

			
 
				+plt.plot(valid[['종가', '예측']])

			
 
				+#plt.show()
			
--- a/src/main/python/kr/co/swh/lecture/opensource/stock/2-analysis-krx-Linear-Regression.py
+++ b/src/main/python/kr/co/swh/lecture/opensource/stock/2-analysis-krx-Linear-Regression.py
@@ -0,0 +1,57 @@
 
				+from sqlalchemy import create_engine

			
 
				+import pymysql

			
 
				+import pandas as pd

			
 
				+import numpy as np

			
 
				+

			
 
				+pymysql.install_as_MySQLdb()

			
 
				+engine = create_engine("mysql+mysqldb://root:"+"tokki1127"+"@127.0.0.1/stock", encoding='utf-8')

			
 
				+conn = engine.connect()

			
 
				+

			
 
				+df = pd.read_sql_query("select * from stock_trade where 종목코드 = '000660'", conn)

			
 
				+df.name = "주가변동"

			
 
				+print(df.head())

			
 
				+

			
 
				+

			
 
				+# 인덱스 확인 (그래프의 X축 : DB로 부터 읽어온 값은 DataFrame으로 불러올 시, 0부터 숫자가 붙어있음)

			
 
				+print(df.index)

			
 
				+

			
 
				+

			
 
				+# 날짜 포맷 변경 

			
 
				+#df['날짜'] = pd.to_datetime (df.날짜, format = '%Y-%m-%d')    # 날짜 포맷이 동일하기 때문에 수행할 필요가 없음

			
 
				+

			
 
				+# 그래프의 X축이자 행은 날짜

			
 
				+df.index = df['날짜']

			
 
				+

			
 
				+

			
 
				+# 날짜와 목표변수인 종가로 이루어진 DataFrame 만들기

			
 
				+

			
 
				+# Case1. 빈 DataFrame을 만든 후, 복사하기

			
 
				+

			
 
				+# 날짜와 목표변수로 빈 dataframe 만들기

			
 
				+new_data = pd.DataFrame(index=range(0, len(df)), columns=['날짜', '종가'])

			
 
				+print(new_data)

			
 
				+

			
 
				+# 날짜와 목표변수인 종가로 dataframe 에 df값 매칭

			
 
				+for i in range(0,len(df)):

			
 
				+     new_data['날짜'][i] = df['날짜'][i]

			
 
				+     new_data['종가'][i] = df['종가'][i]

			
 
				+print(new_data.head())  # 날짜와 종가에 대한 데이터

			
 
				+

			
 
				+# !pip install sklearn

			
 
				+

			
 
				+# fastai.structured import에서 기능 생성 add_datepart

			
 
				+# !pip install fastai==0.7.0

			
 
				+# 설치가 잘 되지 않음 

			
 
				+#from fastai.structured import  add_datepart

			
 
				+#add_datepart (new_data, 'Date')

			
 
				+# 대신 아래와 같이 코딩

			
 
				+

			
 
				+#new_data = new_data.copy()

			
 
				+new_data['mon_fri'] = 0

			
 
				+print(new_data.head())

			
 
				+for i in range(0,len(new_data)):

			
 
				+    if (new_data['Dayofweek'][i] == 0 or new_data['Dayofweek'][i] == 4):

			
 
				+        new_data['mon_fri'][i] = 1

			
 
				+    else:

			
 
				+        new_data['mon_fri'][i] = 0 

			
 
				+new_data.drop ( 'Elapsed', axis = 1, inplace = True) #elapsed는 타임 스탬프가됩니다
			
--- a/src/main/python/kr/co/swh/lecture/opensource/stock/krx-company-mysql-upload.py
+++ b/src/main/python/kr/co/swh/lecture/opensource/stock/krx-company-mysql-upload.py
@@ -0,0 +1,35 @@
 
				+from sqlalchemy import create_engine

			
 
				+import pymysql

			
 
				+import urllib.parse

			
 
				+import pandas as pd

			
 
				+

			
 
				+MARKET_CODE_DICT = {

			
 
				+    'kospi': 'stockMkt',

			
 
				+    'kosdaq': 'kosdaqMkt',

			
 
				+    'konex': 'konexMkt'

			
 
				+}

			
 
				+DOWNLOAD_URL = 'kind.krx.co.kr/corpgeneral/corpList.do'

			
 
				+

			
 
				+def download_stock_codes(market=None, delisted=False):

			
 
				+    params = {'method': 'download'}

			
 
				+    if market.lower() in MARKET_CODE_DICT:

			
 
				+        params['marketType'] = MARKET_CODE_DICT[market]

			
 
				+    if not delisted:

			
 
				+        params['searchType'] = 13

			
 
				+

			
 
				+    params_string = urllib.parse.urlencode(params)

			
 
				+    request_url = urllib.parse.urlunsplit(['http', DOWNLOAD_URL, '', params_string, ''])

			
 
				+    df = pd.read_html(request_url, header=0)[0]

			
 
				+    df.종목코드 = df.종목코드.map('{:06d}'.format)

			
 
				+    return df

			
 
				+

			
 
				+pymysql.install_as_MySQLdb()

			
 
				+engine = create_engine("mysql+mysqldb://root:"+"tokki1127"+"@127.0.0.1/stock", encoding='utf-8')

			
 
				+conn = engine.connect()

			
 
				+

			
 
				+kosdaq_stocks = download_stock_codes('kosdaq')

			
 
				+kospi_stocks = download_stock_codes('kospi')

			
 
				+konex_stocks = download_stock_codes('konex')

			
 
				+kosdaq_stocks.to_sql(name="company", con=conn, if_exists='append')

			
 
				+kospi_stocks.to_sql(name="company", con=conn, if_exists='append')

			
 
				+konex_stocks.to_sql(name="company", con=conn, if_exists='append')
			
--- a/src/main/python/kr/co/swh/lecture/opensource/stock/krx-mysql-test.py
+++ b/src/main/python/kr/co/swh/lecture/opensource/stock/krx-mysql-test.py
@@ -0,0 +1,13 @@
 
				+from sqlalchemy import create_engine

			
 
				+import pymysql

			
 
				+import urllib.parse

			
 
				+import pandas as pd

			
 
				+from pykrx import stock

			
 
				+import time

			
 
				+

			
 
				+s = "005930"

			
 
				+df = stock.get_market_ohlcv_by_date("20180810", "20181212", s)

			
 
				+print(df)

			
 
				+df['종목코드'] = s

			
 
				+print(df)

			
 
				+

			
--- a/src/main/python/kr/co/swh/lecture/opensource/stock/krx-stock-csv-download.py
+++ b/src/main/python/kr/co/swh/lecture/opensource/stock/krx-stock-csv-download.py
@@ -0,0 +1,12 @@
 
				+from sqlalchemy import create_engine

			
 
				+import pymysql

			
 
				+import pandas as pd

			
 
				+import numpy as np

			
 
				+

			
 
				+pymysql.install_as_MySQLdb()

			
 
				+engine = create_engine("mysql+mysqldb://root:"+"tokki1127"+"@127.0.0.1/stock", encoding='utf-8')

			
 
				+conn = engine.connect()

			
 
				+

			
 
				+df = pd.read_sql_query("select * from stock_trade where 종목코드 = '000660'", conn)

			
 
				+print(df)

			
 
				+df.to_csv("skhynix.csv", mode='w', header=True, index = False)
			
--- a/src/main/python/kr/co/swh/lecture/opensource/stock/krx-tradelist-mysql-upload.py
+++ b/src/main/python/kr/co/swh/lecture/opensource/stock/krx-tradelist-mysql-upload.py
@@ -0,0 +1,27 @@
 
				+from sqlalchemy import create_engine

			
 
				+import pymysql

			
 
				+import urllib.parse

			
 
				+import pandas as pd

			
 
				+from pykrx import stock

			
 
				+import time

			
 
				+

			
 
				+pymysql.install_as_MySQLdb()

			
 
				+engine = create_engine("mysql+mysqldb://root:"+"tokki1127"+"@127.0.0.1/stock", encoding='utf-8')

			
 
				+conn = engine.connect()

			
 
				+

			
 
				+# 전체

			
 
				+# tickers = stock.get_market_ticker_list()

			
 
				+# for ticker in tickers:

			
 
				+#     df = stock.get_market_ohlcv_by_date("20190101", "20190131", ticker)

			
 
				+#     if len(df) > 0 :

			
 
				+#         df['종목코드'] = ticker

			
 
				+#         df.to_sql(name="stock_trade", con=conn, if_exists='append')

			
 
				+#         time.sleep(0.2)

			
 
				+

			
 
				+# SK하이닉스만

			
 
				+ticker = '000660'

			
 
				+df = stock.get_market_ohlcv_by_date("20150101", "20191231", ticker)

			
 
				+if len(df) > 0 :

			
 
				+    df['종목코드'] = ticker

			
 
				+    df.to_sql(name="stock_trade", con=conn, if_exists='append')

			
 
				+

			
--- a/src/main/python/kr/co/swh/lecture/opensource/stock/news.py
+++ b/src/main/python/kr/co/swh/lecture/opensource/stock/news.py
@@ -0,0 +1,16 @@
 
				+from sqlalchemy import create_engine

			
 
				+import pymysql

			
 
				+import pandas as pd

			
 
				+import numpy as np

			
 
				+

			
 
				+pymysql.install_as_MySQLdb()

			
 
				+engine = create_engine("mysql+mysqldb://root:"+"swhacademy!"+"@192.168.0.41/market", encoding='utf-8')

			
 
				+conn = engine.connect()

			
 
				+

			
 
				+df = pd.read_sql_query("select * from stock_news limit 5", conn)

			
 
				+df = df['contents']

			
 
				+df.name = "뉴스기사"

			
 
				+df.index.name = 'ID'

			
 
				+print(df.index)

			
 
				+#print(df.values)

			
 
				+print(df)
			
--- a/src/main/python/kr/co/swh/lecture/opensource/stock/skhynix.csv
+++ b/src/main/python/kr/co/swh/lecture/opensource/stock/skhynix.csv