미래내일일경험 - 빅리더(23.06~23.12) 17

[스터디챌린지] ICT융합대학 스터디 챌린지 9주차(8/26 ~ 8/31)

회고 7월 1일자 목표는 빅리더 아카데미 커리큘럼 따라가면서 깃허브 업로드 선형대수, 미적분학, 통계학개론 마크다운으로 블로그 작성하면서 마크다운 실력 키우기 프로그래머스 SQL 문제 하루 적어도 하나씩 풀기 위와 같았다. 과연 이걸 다 지켰을까? 생각해보면, 2번은 성공했고, 나름 1번도 성공했다. 끝나고 나서 깃허브에 모두 내용을 정리하고 깃허브에 올렸으니까. 근데 3번은 힘들었고, 4번도 학교에서 배운 내용으로는 조금 어렵더라.. 그래도 이번 방학은 나름 열심히 살았고 당장 내일부터 프로젝트 인턴쉽 시작이다.. 힘내자 김광영!!

[스터디챌린지] ICT융합대학 스터디 챌린지 8주차(8/19 ~ 8/25)

빅리더 프로젝트 인턴십에 참여한지도 벌써 8주라는 시간이 흘렀습니다. 시간 참 빠르네요. 오늘은 알고리즘 코딩테스트를 보고..? 본게 맞나 싶긴 합니다. 3시간 동안 삼성 코딩테스트 한 문제를 못풀었어요.. ㅎ 중/상급반으로 시험을 진행하다가 아기상어 문제를 1시 30분 풀다가 ㅎ 포기하고 기초반으로 넘어가서 3문제를 분명 12시 쯔음에 다 풀었는데 백준이 오륜가 아니면 그룹이 오륜가 맞았다고 표시가 안나와요.. ㅎ 요 마지막 문제가 백준 3085번 사탕게임인데 분명 시간내에 풀었는데 체크가 안됩니다. ㅠ 뭐 그래도 한 30분이 안걸려서 풀었으니까 만족은하는데 시험 점수 반영한다고 하셨는데... ㅎ 모르겠습니다. 그리고 방금? 3시간 전 쯤 프로젝트 신청서를 제줄했습니다. 1차는 9월 1일 ~ 10월 1..

[스터디챌린지] ICT융합대학 스터디 챌린지 7주차(8/12 ~ 8/18)

사실 문제 선지 4개가 제일 헷갈렸던 문제입니다. 등장 빈도가 적은 단어 제거: 텍스트 데이터에서 특정 단어가 매우 적게 등장한다면, 그 단어는 분석에 큰 영향을 미치지 않을 가능성이 높습니다. 이러한 단어를 제거함으로써 데이터의 크기를 줄이고 계산 효율성을 높일 수 있습니다. 길이가 짧은 단어 제거: 길이가 짧은 단어(예: "a", "an", "the" 등)는 종종 노이즈로 작용할 수 있으며, 분석에 큰 의미를 가지지 않을 수 있습니다. 이러한 단어를 제거하면 분석의 정확성을 높일 수 있습니다. 대소문자 구분: 대소문자 구분은 텍스트 정제 작업에 일반적으로 포함되지 않습니다. 대소문자 구분은 분석의 목적과 데이터의 특성에 따라 선택적으로 적용될 수 있으며, 일반적인 텍스트 정제 작업과는 직접적인 관련이..

[An Introduction to Statistical Learning] 3. Linear Regression_Exercise

3.7 Exercises 1. 표 3.4에 주어진 p-값이 대응되는 귀무가설을 설명하여라. 이 p-값들을 바탕으로 어떤 결론을 내릴 수 있는지 설명하여라. 당신의 설명은 선형모델의 계수가 아닌 판매, TV, 라디오, 신문 등의 용어로 표현되어야 한다. t통계를 사용했기 때문에 H0, 귀무가설은 각각의 변수들과 광고 예산간의 관계를 알아본 것이다. 그렇기 때문에 각각의 회귀 계수는 Bi 0이다라는 귀무가설이 세워진다. 그리고 위의 표를 보면, 유의확률 p-value가 유의수준 0.05, 0.01보다 훨 큰 값은 newspaper 밖에 없기 때문에 newspaper는 귀무가설을 기각하지 못하고 회귀계수가 0이되며, 나머지는 회귀계수가 Coefficient를 따라간다. 결국은 신문 광고는 광고 예산을 늘려도 ..

[스터디챌린지] ICT융합대학 스터디 챌린지 6주차(8/05 ~ 8/11)

[이번주 목표] 수업 : Deep Learning - 고우주 교수님 매일 매일 수업 내용 정리 과제 관련해서 내용 찾아보고 정리 개인 공부 : 생각보다 진짜 드럽게 바쁜 일주일 이번 주는 더 나을 줄 알았는데 시험을 진짜 오랜만에 봤다 분산을 구할 때 제곱합으로 나눌 수 있는 값..? 이 문제를 처음에 봤을 때 약간 당황했다. 보통 분산을 구할 때, 제곱합을 나누지 않나..? 싶었고, 지금도 워딩이 매우 이상하다. 문제 오류 인듯. 개념을 정리하자면, 모집단의 분산에서 계산식에 들어가는 값은 n이고, 표본 분산에서 분모에 들어가는 값이 n-1입니다. n−1로 나누는 이유는 Bessel의 보정 때문입니다. 이는 표본의 평균이 모집단의 평균과는 다를 수 있기 때문에, 표본 분산이 모집단 분산을 과소추정하는 ..

[An Introduction to Statistical Learning] 3. Linear Regression

목차 3. Linear Regression 3.1 Simple Linear Regression 3.1.1 Estimating the Coefficients 3.1.2 Assessing the Accuracy of the Coefficient Estimates 3.1.3 Assessing the Accuracy of the Model 3.2 Multiple Linear Regression 3.2.1 Estimating the Regression Coefficients 3.2.2 Some Important Questions 3.3 Other Considerations in the Regression Model 3.3.1 Qualitative Predictors 3.3.2 Extensions of the Li..

[스터디챌린지] ICT융합대학 스터디 챌린지 5주차(7/29 ~ 8/04)

저번주 자연어처리는 따로 글로 정리하도록 하고... 생각보다 난이도가 어려워서 위키독스와 책을 계속 보느라고 내 언어로 정리를 못했다.. # 텍스트를 컴퓨터가 이해하고, 효율적으로 처리하게 하기 위해서는 컴퓨터가 이해 할 수 있도록 텍스트를 적절하게 숫자로 변환하는 과정이 워드 임베딩이라는 방법을 사용한다. # 원-핫 인코딩을 통해서 나온 원-핫 벡터는 단어가 있는 index만 1로 표현하고 나머지를 1로 표현하는 희소 벡터 형태를 가진다. 하지만 matrix의 크기가 단어의 개수를 따라가기 때문에, 단어의 개수가 늘어날 수록 차원이 엄청 나게 늘어나는 문제가 있고, 이에 따라 공간적 낭비가 엄청나게 심하게 일어납니다. 그리고 무엇보다 그냥 인덱스만 나타내는 것이기 때문에 단어의 의미를 표현하지 못합니다..

[파이썬] 리스트, 딕셔너리 시간 복잡도 체감하기

https://www.acmicpc.net/problem/1920 1920번: 수 찾기 첫째 줄에 자연수 N(1 ≤ N ≤ 100,000)이 주어진다. 다음 줄에는 N개의 정수 A[1], A[2], …, A[N]이 주어진다. 다음 줄에는 M(1 ≤ M ≤ 100,000)이 주어진다. 다음 줄에는 M개의 수들이 주어지는데, 이 수들 www.acmicpc.net 사실 list가 찾는데 시간이 오래걸린다고 듣긴 했어도 확 체감이 없었는데 이 문제 하나로 엄청나게 체감이 되서 블로그 글을 작성한다. 문제를 잘 살펴보자, 실버4 문제에 수찾기... 매우 간단해보인다. 근데.. 정답비율이 뭔가 이상한데? 29.997% 자그마치 30%가 안된다. 여기서 조건을 살펴보면 시간 제한 1초, 메모리 제한 128MB => ..

[스터디챌린지] ICT융합대학 스터디 챌린지 4주차(7/22 ~ 7/28)

NLP : Natural Language Processing, 자연어 처리 import konlpy from konlpy.tag import Okt okt = Okt() print(okt.morphs(u'아버지가방에들어가신다.')) morphemes : 형태소 위의 코드는 okt 모델로 형태소 분석하겠다라는 의미를 그냥 코드로 쓴거다. 함수 사용법 : okt.morphs(phrase, norm=False, stem=False) 문자열 앞의 u는 이유는 모르겠지만 그냥 공식문서 예시에도 들어가 있다. import nltk from nltk.tokenize import word_tokenize text = """Don't And that’s exactly the way with our machines. In..

[스터디챌린지] ICT융합대학 스터디 챌린지 3주차(7/15 ~ 7/21)

07/18 : [decision tree + scatter plot/linear regression graph] : with UCI Machine Learnig Repository 센서 데이터 decision tree(결정 트리) 머신러닝 알고리즘 중에서 직관적으로 이해하기 쉬운 것으로 "다중 분류"에 많이 사용한다. 스스로 데이터 안에서 if/else 기반으로 규칙을 찾아 학습하여 트리 구조의 분류를 규칙으로 만든다. 규칙을 나타내는 "decision node"와 분류가 결정된 클래스 값이 표시된 "leaf node"로 구성된다. 최대한 하위 그룹에 있는 데이터의 균일도를 최대로 높이기 위해 규칙을 찾아서 규칙노드를 구성하는데, 이를 구성하는 방법으로 정보 이득 지수와 지니 계수가 있다. import ..