전체 글 35

[An Introduction to Statistical Learning] 3. Linear Regression_Exercise

3.7 Exercises 1. 표 3.4에 주어진 p-값이 대응되는 귀무가설을 설명하여라. 이 p-값들을 바탕으로 어떤 결론을 내릴 수 있는지 설명하여라. 당신의 설명은 선형모델의 계수가 아닌 판매, TV, 라디오, 신문 등의 용어로 표현되어야 한다. t통계를 사용했기 때문에 H0, 귀무가설은 각각의 변수들과 광고 예산간의 관계를 알아본 것이다. 그렇기 때문에 각각의 회귀 계수는 Bi 0이다라는 귀무가설이 세워진다. 그리고 위의 표를 보면, 유의확률 p-value가 유의수준 0.05, 0.01보다 훨 큰 값은 newspaper 밖에 없기 때문에 newspaper는 귀무가설을 기각하지 못하고 회귀계수가 0이되며, 나머지는 회귀계수가 Coefficient를 따라간다. 결국은 신문 광고는 광고 예산을 늘려도 ..

[스터디챌린지] ICT융합대학 스터디 챌린지 6주차(8/05 ~ 8/11)

[이번주 목표] 수업 : Deep Learning - 고우주 교수님 매일 매일 수업 내용 정리 과제 관련해서 내용 찾아보고 정리 개인 공부 : 생각보다 진짜 드럽게 바쁜 일주일 이번 주는 더 나을 줄 알았는데 시험을 진짜 오랜만에 봤다 분산을 구할 때 제곱합으로 나눌 수 있는 값..? 이 문제를 처음에 봤을 때 약간 당황했다. 보통 분산을 구할 때, 제곱합을 나누지 않나..? 싶었고, 지금도 워딩이 매우 이상하다. 문제 오류 인듯. 개념을 정리하자면, 모집단의 분산에서 계산식에 들어가는 값은 n이고, 표본 분산에서 분모에 들어가는 값이 n-1입니다. n−1로 나누는 이유는 Bessel의 보정 때문입니다. 이는 표본의 평균이 모집단의 평균과는 다를 수 있기 때문에, 표본 분산이 모집단 분산을 과소추정하는 ..

[An Introduction to Statistical Learning] 3. Linear Regression

목차 3. Linear Regression 3.1 Simple Linear Regression 3.1.1 Estimating the Coefficients 3.1.2 Assessing the Accuracy of the Coefficient Estimates 3.1.3 Assessing the Accuracy of the Model 3.2 Multiple Linear Regression 3.2.1 Estimating the Regression Coefficients 3.2.2 Some Important Questions 3.3 Other Considerations in the Regression Model 3.3.1 Qualitative Predictors 3.3.2 Extensions of the Li..

[스터디챌린지] ICT융합대학 스터디 챌린지 5주차(7/29 ~ 8/04)

저번주 자연어처리는 따로 글로 정리하도록 하고... 생각보다 난이도가 어려워서 위키독스와 책을 계속 보느라고 내 언어로 정리를 못했다.. # 텍스트를 컴퓨터가 이해하고, 효율적으로 처리하게 하기 위해서는 컴퓨터가 이해 할 수 있도록 텍스트를 적절하게 숫자로 변환하는 과정이 워드 임베딩이라는 방법을 사용한다. # 원-핫 인코딩을 통해서 나온 원-핫 벡터는 단어가 있는 index만 1로 표현하고 나머지를 1로 표현하는 희소 벡터 형태를 가진다. 하지만 matrix의 크기가 단어의 개수를 따라가기 때문에, 단어의 개수가 늘어날 수록 차원이 엄청 나게 늘어나는 문제가 있고, 이에 따라 공간적 낭비가 엄청나게 심하게 일어납니다. 그리고 무엇보다 그냥 인덱스만 나타내는 것이기 때문에 단어의 의미를 표현하지 못합니다..

[파이썬] 리스트, 딕셔너리 시간 복잡도 체감하기

https://www.acmicpc.net/problem/1920 1920번: 수 찾기 첫째 줄에 자연수 N(1 ≤ N ≤ 100,000)이 주어진다. 다음 줄에는 N개의 정수 A[1], A[2], …, A[N]이 주어진다. 다음 줄에는 M(1 ≤ M ≤ 100,000)이 주어진다. 다음 줄에는 M개의 수들이 주어지는데, 이 수들 www.acmicpc.net 사실 list가 찾는데 시간이 오래걸린다고 듣긴 했어도 확 체감이 없었는데 이 문제 하나로 엄청나게 체감이 되서 블로그 글을 작성한다. 문제를 잘 살펴보자, 실버4 문제에 수찾기... 매우 간단해보인다. 근데.. 정답비율이 뭔가 이상한데? 29.997% 자그마치 30%가 안된다. 여기서 조건을 살펴보면 시간 제한 1초, 메모리 제한 128MB => ..

[스터디챌린지] ICT융합대학 스터디 챌린지 4주차(7/22 ~ 7/28)

NLP : Natural Language Processing, 자연어 처리 import konlpy from konlpy.tag import Okt okt = Okt() print(okt.morphs(u'아버지가방에들어가신다.')) morphemes : 형태소 위의 코드는 okt 모델로 형태소 분석하겠다라는 의미를 그냥 코드로 쓴거다. 함수 사용법 : okt.morphs(phrase, norm=False, stem=False) 문자열 앞의 u는 이유는 모르겠지만 그냥 공식문서 예시에도 들어가 있다. import nltk from nltk.tokenize import word_tokenize text = """Don't And that’s exactly the way with our machines. In..

[스터디챌린지] ICT융합대학 스터디 챌린지 3주차(7/15 ~ 7/21)

07/18 : [decision tree + scatter plot/linear regression graph] : with UCI Machine Learnig Repository 센서 데이터 decision tree(결정 트리) 머신러닝 알고리즘 중에서 직관적으로 이해하기 쉬운 것으로 "다중 분류"에 많이 사용한다. 스스로 데이터 안에서 if/else 기반으로 규칙을 찾아 학습하여 트리 구조의 분류를 규칙으로 만든다. 규칙을 나타내는 "decision node"와 분류가 결정된 클래스 값이 표시된 "leaf node"로 구성된다. 최대한 하위 그룹에 있는 데이터의 균일도를 최대로 높이기 위해 규칙을 찾아서 규칙노드를 구성하는데, 이를 구성하는 방법으로 정보 이득 지수와 지니 계수가 있다. import ..

[스터디챌린지] ICT융합대학 스터디 챌린지 2주차(7/8 ~ 7/14)

import datetime print(datetime.date.today().isoformat()) 백준 10988번 코드이다. 생각보다 내가 메소드를 대강 알고 있었다는 것을 깨달았다. reversed(list)는 list를 반환한다. 하지만 list.reverse()는 반환값이 없다. 즉 None을 반환한다. 백준 10988번처럼 내용물을 비교하고 싶으면 reversed를 사용해야한다. import sys palindrome = list(sys.stdin.readline()) palindrome = palindrome[:len(palindrome)-1] if list(reversed(palindrome)) == palindrome: print(1) else: print(0) 파이썬 날짜 출력 imp..

[크롤링] 크롤링 정리

막상 정리하려고 했는데 내가 필요한게 아니니까 할려고하니까 너무 귀찮아서 대강 정리할래요. 근데 사실 이거 이렇게 써도 아무도 안읽자너 이거는 진짜로 그냥 공식문서만 읽어도 해결되는 건데 3일이나 수업을 한지 모르겠어요. #Step 1. 필요한 모듈을 로딩합니다 from selenium import webdriver from bs4 import BeautifulSoup from selenium.webdriver.common.by import By import time, os #CSV로 저장할 준비 fc_name = "./data/seoul.csv" #Step 4. 크롬 드라이버 설정 및 웹 페이지 열기 driver = webdriver.Chrome("./chromedriver") driver.get('h..

[스터디챌린지] ICT융합대학 스터디 챌린지 1주차(7/1 ~ 7/7)

목표 빅리더 아카데미 커리큘럼 따라가면서 깃허브 업로드 선형대수, 미적분학, 통계학개론 마크다운으로 블로그 작성하면서 마크다운 실력 키우기 프로그래머스 SQL 문제 하루 적어도 하나씩 풀기 1일차 프로그래머스 SQL 문제 [3월에 태어난 여성 회원 목록 출력하기][https://school.programmers.co.kr/learn/courses/30/lessons/131120] 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 정답 : 더보기 SELECT MEMBER_ID, MEMBER_NAME, GENDER, TO_CHAR(DATE_OF_BIRTH, 'Y..