목록분류 전체보기 (23)
데이터를 알자

내부조인 : INNER JOIN 두 테이블을 조인할 때, 두 테이블에 모두 지정한 열의 데이터가 필요 동일한 열일 경우, USING을 사용하여 처리 가능 테이블 관계 일대다 관계 (작가-출판북) 일대일 관계 (개인정보-지문) 다대다 관계(국가-언어) 외부조인 1) left join(=left outer join) : 왼쪽 테이블의 모든 값이 출력되는 조인 2) right join (=right outer join): 오른쪽 테이블의 모든 값이 출력되는 조인 3) FULL JOIN (=FULL OUTER JOIN): 왼쪽 또는 오른쪽 테이블의 모든 값이 출력되는 조인 4) CROSS JOIN 한쪽 테이블의 모든 행과 다른 쪽 테이블의 모든 행을 조인시키는 기능 상호 조인 결과의 전체 행 개수는 두 테이블의..

8일차.. 벌써 끝나가네요. 오늘은 집합만들고 대시보드에 동작 효과주는 걸 배웠는데 생각보다 재미있으면서 낯설기때문에 어렵네요 강원도를 클릭할 때, 집합으로 선택한 in의 집합과 선택받지 않은 out의 집합을 보여주는 것인데요. 집합을 생성한 뒤에 대시보드에 들어가는 워크시트에 색상으로 지정해줍니다. 그 후, 대시보드로 돌아와 대시보드>동작> 동작추가> 집합값 변경을 누른 뒤, 알맞게 선택하면 됩니다. 작업(동작) 실행 조건 선택 → 마우스 클릭했을 때 마우스 오버 → 마우스를 차트에 올렸을 때, 메뉴 → 마우스로 클릭한 후 도구설명에서 메뉴 버튼을 클릭했을 때 선택을 해제할 경우의 결과 집합 값 유지 → 지도에서 서울을 선택했다가, 선택된 값을 취소했을 때 여전히 서울 값 유지 집합에 모든 값 추가 →..

오늘은 차트 관련해서 실습했습니다. 이중축을 활용해서 예쁘게 시각화하는게 많더라고요. min(0)을 넣어서 새로운 축(흰 원을 만들기 위해)을 만들었습니다. 수익에 마이너스를 붙여서 크기를 조절했습니다. 순위는 높을수록 위에서 내려오는게 편해서 반전한 뒤에 동기화 시켜줘야합니다. 이중축으로 원과 라인을 겹친 형태에요. 퍼널은 영역차트를 활요해서 반전시켜 붙인 겁니다. 마지막으로 시간 계산하는건데.. 분명 만들 당시에는 이렇게 나왔거든요? 근데 다음 날 다시 열어보니 아래 사진처럼 나옴 ㅋㅋㅋ 뭐지.. 아무튼 영업 시간의 크기를 나타내는 거니깐 [영업종료시간]-[영업시작시간]로 계산했습니다.

드디어 반을 넘어, 6일차에 왔네요. 이제부터는 조금씩 난이도가 있어보이네요. 첫번째는 테이블 계산식을 이용하여 전일 대비 종가가 상승했는지 하락했는지 보여주는 차트입니다. 전일대비 종가 등락은 퀵 테이블 계산> 차이를 이용하면 되고, 그 계산식을 이용하여 색상을 씌어주면 됩니다. *추가적으로 워크시트 동작 활용법도 있는데 세부정보에 링크를 클릭할 수있도록 설정해주는 겁니다. 메뉴 >워크시트>동작에서 url동작을 선택한 뒤, url 지정해주면 끝 2번째는 비율을 구할때 퀵테이블 계산의 구성 비율을 이용하면 필터에 따라 분모의 값이 달라집니다. 즉, 현재 전체를 두면, 전체의 값의 합으로 나눠지고 수도권을 선택하면 수도권의 전체의 합으로 나눠집니다. 이를 고정하여 전국의 합을 구하고자 3번째 과제가 등장합..

오늘부터는 이전에 배운 내용도 함께 적용하느라 살짝 머리 좀 썼네요 ㅎㅎ 1번은 매개변수, 계산필드 활용해서 지하철 노선도 위에 평균 승/하차 승객수 표시하는 거에요. 처음에 뭐더라.. 이러고 한참 생각하다가 했네요 ㅋㅋㅋㅋ 2번째는 시애틀에서 어디로 여행가는지 라인을 그린거고 makepoint함수를 이용해서 위치를 계산한 뒤, makeline으로 라인을 그려주는 방식입니다. 마지막으로 buffer함수를 이용해서 상권이 얼마나 겹치는지를 시각화해봤는데요. 이 문제도 makepoint로 상권 위치를 맵핑해줬고 매개변수를 활용해서 거리를 직접 조정할 수 있게 했습니다. 5일차부터 뭔가 난이도가 올라가는 느낌~~
캐글 산탄데르 고객 만족 예측의 분류 실습을 진행하겠습니다. 데이터는 아래 링크에서 다운 받으시면 됩니다. https://www.kaggle.com/c/santander-customer-satisfaction Santander Customer Satisfaction | Kaggle www.kaggle.com 1. 데이터 전처리 import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib import warnings warnings.filterwarnings('ignore') cust_df=pd.read_csv("train.csv") print(cust_df.shape) cust_df.head(3) [결과] ..

4일차 입니다. 시계열 데이터를 활용해서 각 연도, 월별로 작업하는 방법을 배웠습니다. 오른쪽 클릭해서 변경하거나 아니면 드래그 자체를 마우스 오른쪽 클릭해서 가져오면 되요. 다음으로는 각 월별에 따라서 평균 미세먼지를 표현한 화면입니다. 3번째는 빅맥지수를 국가별로 보여주는 시각화입니다. 2000년과 2020년을 국가별로 얼마나 달라졌는지 눈에 잘보이죠..? “퀵 테이블 계산” 중 비율 차이를 이용했고 “테이블 계산 편집”을 사용해서 첫번째(2000년 첫번째 값)로 옵션을 변경한 겁니다. 마지막으로 이중축을 활용한 시각화입니다. 두가지 측정값을 이용해서 최소와 최대값 그리고 한국의 가격 합계를 구합니다. 그 후, 동일한 측정값을 ctrl을 이용해서 복사해주면 이중축 완성. 이때 라인으로 마크를 변경하면..

3일차 오늘은 늦게 제출했어요 ㅠㅠ 일이 좀있어서.. 오늘부터 진짜 대시보드 하는 느낌이네요~ 일단 오늘 매개변수와 계산필드를 활용하는 것을 배웠습니다. PYTHON에서는 당연하게 쓰이는 부분인데 태블로에서 적용되는 것을 보며 색달랐어요 :)카페인, 당류, 칼로리 등 여러 변수를 매개변수와 계산 필드를 활용해 클릭으로 바뀌게 만들 수 있습니다. 매개변수는 아래 사진 처럼 데이터 유형, 그리고 목록으로 보여줄지, 범위로 보여줄지 선택해서 그에 맞게 입력하면 됩니다. 이를 활용해서 계산 필드를 쓸 수 있는데요. CASE ~ WHEN ~ THEN 이나 IF THEN을 활용하여 만들 수 있습니다. 비슷하긴한데 IF를 사용한다면,IF [측정값 선택]='칼로리' THEN [칼로리(Kcal)] ELSEIF [측정값선..
개별 하이퍼파라미터 값의 범위 가 넓거나 학습 데이터가 대용량일 경우, Grid Search방식은 많은 시간이 소모됩니다. 특히, XGBoost와LightGBM의 경우, 파라미터 개수가 많기 때문에 실무에서는 오래걸립니다. 그래서 등장하는 것이 "베이지안 최적화" 베이지안 최적화? 목적 함수 식을 제대로 알 수 없는 블랙 박스 형태의 함수에서 최대 또는 최소 함수 반환 값을 만드는 최적 입력값을 가능한 적은 시도를 통해 빠르고 효과적으로 찾아주는 방식 - 새로운 데이터를 입력받았을 때 최적 함수를 예측하는 사후 모델을 개선해 나가면서 최적 함수 모델을 만들어 냅니다. 1) 대체 모델(Surrogate Model) : 획득 함수로부터 최적 함수를 예측할 수 있는 입력값을 추천 받은 뒤 이를 기반으로 최적 ..

오늘은 2일차! 학습은 10분정도밖에 없네요 ㅎㅎ 너무 좋네요~~ 가볍게 할 수 있어서 즐거운 마음으로 공부한 것 같아요. 오늘의 과제는 총 3개 + 도전과제까지 첫번째는 워드클라우드를 나타내는 방법! 생각보다 너무 쉬운 방식이에요. 텍스트에 넣고 색깔과 크기를 지정해주면 끝!2번째는 박스 플롯인데 각 카테고리 내 메뉴를 세부정보에 넣고 여기에 박스플롯을 씌운거에요. 참고로, 원에는 카페인의 높고 낮음을 색으로 표현한거고요.3번째는 오늘 학습한 계산 필드를 이용한 과제였어요. if, then, else, end의 조건문을 활용하여 쉽게 집단을 나눠서 색으로 표시할 수 있답니다~마지막으로 도전 과제는 운영시간의 필드를 계산필드를 이용해서 구하는 건데, datediff함수를 이용해서 쉽게 구할 수 있었답니다..