전체 글 16

[MySQL] UNION

UNION -> 테이블의 수직결합UNION or UNION ALL -> 차이? UNION은 중복제거, UNION ALL 생으로 다 합침컬럼 순서가 같고, 그 형식이 같아야 함각 컬럼의 이름은 달라도 상관없음 맨 위 SELECT 절 뒤에 있는 컬럼명으로 통일select 컬럼1, 컬럼2, 컬럼3.. from 테이블명1union (all) #수직결합 명시select 컬럼1, 컬럼2, 컬럼3..from 테이블명2 만약 테이블1에 있는 컬럼이지만, union을 하고 싶다면 그 컬럼의 자리에 NULL을 써주면 됨

MySQL 2025.10.30

[MySQL] Distinct Keyword

DISTINCT는 함수가 아니다. DISTINCT는 SELECT 절의 키워드이다. DISTINCT는 SELECT 바로 뒤에 위치해야 하며, 쿼리 결과 전체 행에 대해 중복을 제거하라는 의미로 사용됨. SELECT DISTINCT [column], [column]FROM [table] DISTINCT의 작동 방식 (중복 제거 기준)DISTINCT는 SELECT 절에 나열된 모든 컬럼의 조합이 중복되는 경우에만 해당 행 제거SELECT DISTINCT species, island라고 했을 때, (species, island)의 두 컬럼 조합이 모두 같은 행만 중복 제거됨.+ GROUP BY를 사용한 고유 조합 찾기위의 예시 SELECT DISTINCT species, island와 동일한 결과를..

카테고리 없음 2025.10.29

[TIL] 통계학기초 - 251029

회귀단순선형회귀Y = AX + B독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명, 예측데이터가 직선적 경향을 따를 때 사용다중선형회귀Y = (A_1)(X_1) + (A_2)(X_2) + ... + B두 개 이상의 독립 변수와 하나의 종속 변수 간의 관계여러 변수의 영향을 동시에 분석할 수 있음그러나 변수 간의 다중공선성 문제가 발생할 수도 있음-> 다중공선성이란?회귀분석에서 독립 변수들 간에 높은 상관관계가 있는 경우왜 문제가 되는가?-> 독립 변수들이 서로 높은 상관관계를 가지면, 각 변수의 개별적이 효과를 분리해내기 어려워져 회귀 해석을 어렵게 만들기 때문-> 다중공선성으로 인해 실제로 중요한 변수가 통계적으로 유의미하지 않게 나올 수도 있음 진단방법?-> 간단한 방법 : 상관계수가 높은..

오늘 배운 것 2025.10.29

[TIL] 통계3 - 251027

유의성 검정 방법들AB 테스트A와 B 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법마케팅, 웹사이트 디자인 등에서 자주 사용사용자들을 두 그룹으로 나누고, 각 그룹에 다른 버전을 제공한 후, 반응 비교두 그룹 간의 변화가 우연이 아니라 통계적으로 유의미한지를 확인 가설검정표본 데이터를 통해 모집단의 가설을 검증하는 과정귀무가설(H_0)과 대립가설 (H_1)을 설정하고, 귀무가설을 기각할지를 결정데이터 분석시 2가지 전략을 취할 수 있음확증적 자료분석 : 미리 가설들을 먼저 세운다음 가설을 검증해 나가는 분석탐색적 자료분석(EDA) : 가설을 먼저 정하지 않고 데이터를 탐색해보면서 가설 후보들을 찾고 데이터의 특징을 찾는 것 가설 검정의 단계귀무가설(H_0)과 대립가설(H_1) 설정 -> ..

오늘 배운 것 2025.10.27

[TIL] 통계2 - 251027

표본오차와 신뢰구간표본오차 (Sampling Error)표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이표본 큰기가 클수록 표본오차는 작아짐무작위 추출 방법을 사용하면 표본오차를 줄일 수 있음. 모든 요소가 선택될 확률이 같아야 함. 신뢰구간모집단의 특정 파라미터(평균, 비율 등)에 대해 추정된 값이 포함될 것으로 기대되는 범위를 의미신뢰구간 계산식은 추정하고자 하는 모수(모평균, 모비율 등)와 모집단의 특성(모분산을 아는지 모르는지, 표본 크기)에 따라 사용되는 분포(정규분포 또는 t-분포)가 달라짐 정규분포종 모양의 대칭 분포로, 대부분의 데이터가 평균 주위에 몰려 있는 분포평균을 중심으로 좌우 대칭이며, 평균에서 멀어질수록 데이터의 빈도가 감소표준편차는 분포의 퍼짐 정도 의미긴 꼬리 분포 대부분..

카테고리 없음 2025.10.27

[TIL] 통계 1 - 251027

기술통계와 추론통계기술통계 - 데이터를 요약하고 설명하는 통계 방법평균, 중앙값, 분산, 표준편차 등을 사용데이터를 특정 대표값으로 요약예외가 항상 존재할 수 있으며, 모든 부분을 확인할 수는 없음분산과 표준편차 -> 자료가 평균을 중심으로 얼마나 흩어져 있는지를 나타내는 통계값, 자료의 산포도를 측정하는 데 사용분산 (Variance)정의 : 각 관측값에서 평균을 뺀 값(편차)을 제곱하여 얻은 값들의 평균. 편차의 합은 항상 0이므로, 편차를 제곱함의미 : 분산의 값이 크다 -> 자료가 평균에서 멀리 분산되어 있다. 분산의 값이 작다 -> 자료가 평균 주위에 밀집되어 있다.표준편차 (Standard Deviation)분산에 제곱근을 취한 값정의 : 분산의 양의 제곱근분산과의 관계 : 제..

카테고리 없음 2025.10.27

[TIL] 파이썬 문법 및 개념

인수 (argument) vs 매개변수 (parameter)인수함수를 호출할 때 함수에 전달되는 값함수 호출 시 매개변수에 전달되는 값, 해당 값은 함수 내부에서 매개변수로 사용매개변수함수를 정의할 때 함수가 받아들이는 값을 지정하는 변수함수의 헤더 부분에서 정의도며, 함수 내부에서 사용def add(n1, n2): # 매개변수 = n1, n2 return n1 + n2 add(3, 4) # 인수 = 3, 4인수 사용방법1) 위치 인수 (positional argument)매개변수의 순서에 따라 인수를 매핑하는 방법2) 키워드 인수 (keyword argument)순서대로 전달하는 대신에 특정 매개변수에 값을 할당하여 전달하는 방법def divide(quotient, remainder): r..

카테고리 없음 2025.10.24

[MySQL] 배운 것 정리 - 251023

대문자, 소문자 만들기UPPER([string])LOWER([string])이전 행, 다음 행에 있는 데이터 가져오기LAG([column], [offset], [default]) OVER (ORDER BY [column])LEAD([column], [offset], [default]) OVER (ORDER BY [column]) 구성요소offset(선택) : 기본값은 1로 고정. 현재 행에서 얼마나 이전, 이후의 행을 참조할지 지정. (1: 바로 이전 혹은 이후 행, 2: 두 칸 이전 혹은 이후 행)deafult(선택) : offset만큼 이전 행이 없을 경우 반환할 값. 기본값은 NULL. LAG -> 이전의 행의 데이터를 현재행으로 가져옴LEAD -> 이후의 행의 데이터를 현재행으로 가져옴Having..

MySQL 2025.10.23

[DATA] 결론 도출

♩ 결론 vs 결과결과- 일련의 작업 후에 얻어진 구체적인 데이터의 출력- 숫자, 통계 등으로 나타낼 수 있음- 계산과 분석을 통해 도출 결론- 결과를 바탕으로 이끌어낸 의미 혹은 통찰- 데이터에 기반한 해석, 추론, 권고 사항- 목적에 대해 어떤 의미가 있는지 설명하는 것 결론 도출 시 주의점- 결과 -> 결론 도출 시에는 "스토리텔링"이 필요- 그러나 데이터를 통해 알 수 있는 범위 내에서 진행해야함 결론을 잘 정리하는 법- 앞서 문제 정의, 지표 설정을 할 당시의 목적을 떠올리며 정리- 결론을 공유할 대상이 누구이며, 무엇을 원하는지를 생각하기- 단순하고 쉽게 전달 -> 핵심 지표 위주로 설명 -> 액션 아이템을 제안- 흥미 유발 -> 모든 내용을 한 번에 담지 말고 조금씩 풀어서 ..

DATA 2025.10.22

[DATA] 데이터의 유형

정성적 데이터 vs 정량적 데이터정성적 데이터- 비수치적인 정보(텍스트, 비디오, 오디오 형태)- 정형되지 않고 구조화 되어있지 않음- 새로운 현상이나 개념에 대한 이해에 도움 정량적 데이터- 수치적으로 표현되는 정보로 양적인 측정과 분석을 통해 획득 가능- 숫자의 형태로 존재하기 때문에 통계적 활용 용이- 개인의 해석, 주관이 적게 작용되어 객관성을 가지고 있음- 설문조사, 실험, 인구 통계, 지표 분석 등에 활용

DATA 2025.10.22