분류 전체보기 261

네이버 크롤링 연결 제한 푸는법

크롤링할게 많아서 엄청하고 있는데... 하다 보니까 제한이 걸렸다 ㅠㅠ 처음에는 아이디만 바꾸면 되는 줄 알고 다른 네이버 아이디로 로그인했는데, 좀 되는 듯 보이다 다시 안된다;; 그래서 집 가서 다시 해보니 잘 된다!! 근데 문제는 또 돌리면 이런 에러가 뜬다 .... 아니 그러면 어떻게 하라구 !!! 물론 폰 핫스팟을 켜서 ip를 바꿔주면 되는데, 그것도 또 막히니까 ㅠㅠ 그래서 Expressvpn에서 Ip를 큰맘 먹고 구매하려는데.... 오이오이... 너무 비싼 거 아니냐구 그래서 이것저것 찾다가 꿀 사이트를 발견해서 짧게 소개하려고 한다. 두둥 탁! https://www.touchvpn.net/ Touch VPN Your real status: Unprotected IP: ISP: Locatio..

[Python] requests로 네이버 데이터랩 크롤링

학교에서 하는 프로젝트가 서서히 끝나가서, 이제 조금식 여유가 생기고 있다. 이제 다시 내 프로젝트에 집중을 하자 !! ( 문제는 했던 것들이 기억 안남...) 내 개인 프로젝트는 네이버 데이터들을 분석하는 것이다. 분석을 하려면 당연히 데이터가 필요하기때문에 자연스럽게 크롤링도 많이 하게된다. api로 가져 올 수 없는게 많아 네이버 데이터랩에서 크롤링을 하는중 ㅎㅁㅎ 예전에 데이터랩에서 카테고리별 top 500 keyword를 추출한 적 있었는데, 시간이 엄청 오래오래 걸린 기억이 있다 ㅠㅠ 아무래도 selenium 방식으로 하다보니 시간을 너무 많이 쓰게된다... 그리고 현재 지금, top 500 keyword를 업데이트 해야하는데 selenium으로 하면 정신 나갈거 같아 requsests 방식으..

[Python] os/shutil 라이브러리 정리

이 라이브러리들을 엄청 자주쓰지는 않지만 가끔 쓸 때 매일 까먹는다.그래서 간단하게 가장 기본적이고 핵심적인 os/shutil 라이브러리 함수를 정리해보았다.이거 익숙해지면 폴더 관련해서 노가다 안해도 된다 ...ㅎㅎ!!  가장 먼저 os,shutil의 라이브러리를 호출한다.import osimport shutil  - 경로 확인[현재 작업 경로]os.getcwd() # 현재 작업 경로지금 실행 파일의 작업 경로가 나온다  [해당 경로의 파일들 확인]os.listdir() #해당 경로의 파일들 확인현재 경로상의 파일 리스트이다.   os.listdir(path= '/Users/jerim/Desktop/따릉이') # path = "찾고자 하는 경로"만일 특정 경로의 파일 리스트를 보고싶을 때는 p..

🔖Python/기타 2023.11.09

Chat GPT 모델 발전

Chat GPT는 Chat Generative Pre-trained Transformer의 약자로 대화형 인공지능이다. 어떻게 하면 GPT를 더 잘 쓰고 잘 이용할까에 대한 주제로 글을 써 볼 생각이다. 오늘은 Chat GPT까지의 모델 발전들을 포스팅하려고 한다. Chat GPT는 레전드다 ... !! [Chat GPT까지의 모델 발전] 1. RNN(Recurrent Neural Network) : 시계열 데이터를 분석하는 알고리즘으로 과거의 데이터가 현재에 영향을 미친다. time step이 길어지는 경우 정보가 뒤로 충분히 전달되지 못하는 문제 (텍스트가 엄청 많은 경우) 2. LSTM (Long Short-Term Memory) : LSTM은 RNN 변형으로 원리는 동일하지만, 좀 더 나은 메모리..

🤖 Chat GPT 2023.11.08

T-test 정리

[T-test] 모집단의 분산이나 표준편차를 알지 못할 때, 모집단을 대표하는 표본을 추출한다.그리고 그 표본으로부터 분산과 표준편차를 추출하고 검정하는 방식이다.식을 통해 이해해보자면,  평균의 차이 / 표준 오차의 비율(표본 변화량)이라 보면된다.이렇게 t-value를 얻으면 평균차이의 크기를 알 수 있다.최종 결과는 p-value로 나타낸다.  그럼  p-value는 어떻게 나타낼까 ? 아까 구한 t 값을 가지고 집단의 숫자(자유도)와 원하는 p-value 기준에 따라 결정한다. p-value는 양쪽 극단값의 범위를 설정한다. (p-value가 작아질수록 주장에 대한 신뢰도가 올라간다.)일반적으로 p-value는 0.05(5%)이하면  그 통계를 신뢰 할 수 있다고판단한다. 이를 통해 통계적으로 유..

Network,TCP/IP protocol 기본 개념 (컴퓨터 지식)

Network의 사전적 의미는 통신이 가능한 서로 연결된 장치의 모임이다. [네트워크의 구조] 1. Point-to-Point - 두 장치간의 전용 링크 ex) TV - 리모컨 2. Multipoint - 3개 이상의 특정 기기가 하나의 링크를 공유 [네트워크 범위] 1. PAN (Personal Area Network) - 개인 장치 네트워크 - 매우 제한적이고 짧은 영역 ex) 블루투스, 무선 키보드 2. LAN (Local Area Network) - 개인, 사무실, 학교 등에 있는 호스트 연결 - private 네트워크여서 외부 통제 불가능 - 컴퓨터 자원을 로컬 영역 네트워크에서 공유가능 - 관리자에게 권한이 많아 개인 정보 보호 기능 없음 ex ) 군대 또는 사무실 인트라넷 3. WAN (Wi..

데이터 분석 이상치 처리 (Z-score,IQR)

이상치 처리 방법 제거 : 이상치를 제거하는 방법이다. 간단하지만 유효한 데이터일 경우 손실이 발생. 대체 : 이상치를 대체하는 방법이다. 평균, 중앙값, 최빈값 등으로 대체하여 사용. 범주화 : 연속형 변수를 구간별로 나누고 이상치를 특정 구간에 할당. 변환 : 이상치를 왜곡시키거나 조정한다. ex ) 로그 변환 이 포스터에 제거 방법에 대해 다룰 예정이다. 이상치 제거에는 여러 방법이 있는데 사분위수 방법과 Z-score 방법에 대해 알아보자. 1. 사분위수 방법 먼저 데이터를 오름차순으로 정렬한다. 그리고 25%,75%(Q1,Q3)에 해당하는 위치 값을 구한다. 그러면 IQR (IQR = Q3-Q1)의 값을 구할 수 있는데 여기에 가중치를 곱한 후 범위에 벗어나는 값을 이상치로 처리한다. 즉 , d..

[Python] 카카오 api로 나에게 메시지 보내기 (+ 메시지 템플릿)

카카오 api를 이용해서 나에게 메시지를 보내보자 ^o^ https://developers.kakao.com/ Kakao Developers 카카오 API를 활용하여 다양한 어플리케이션을 개발해보세요. 카카오 로그인, 메시지 보내기, 친구 API, 인공지능 API 등을 제공합니다. developers.kakao.com 우선 여기에 접속 하고 로그인을 한다. 내 애플리케이션에 들어간다음 애플리케이션 추가하기를 누른다. 그럼 이제 이런 화면이 뜨는데 잘 적어준다. 앱키들은 내 정보들이니까 잘 보호를 하자. 이제 access_token을 얻어보자. https://localhost:3000 메뉴에 보면 카카오 로그인이 있는데 이걸 눌러줘서 이렇게 바꿔줬다. 카카오 로그인 > 동의항목에가서 카카오 메시지 전송 설..

⚙️ Backend/API 2023.10.18

cmd에서 jupyter notebook 갑자기 안 열림

오늘도 평화롭게 주피터를 키고 코드를 두들기려했는데, 갑자기 에러가 떴다...(뭐지...?? 오늘 아침만해도 잘 됐던거 같은디... ) 에러코드는 TypeError: warn() missing 1 required keyword-only argument: 'stacklevel' 최근에 경로 바꾸고 막 이상한 짓 해서 그런 줄 알았는데, 다행히 그런건 아니였다. pip uninstall traitletspip install traitlets==5.9.0이런 경우 가볍게  cmd에 uninstall traitlets하고 , 다시 새로운 버전을 깔아주면 된다. 이렇게 했더니 이제 잘된다.다시 만나서 반갑다 주피터야 ㅠㅠ (참고 자료)https://github.com/microsoft/azuredatastudio..

[Python] selenium 없이 스크롤 하는 법 (네이버쇼핑)

0 제모제 1 유아세탁세제 2 기저귀휴지통 3 카테킨 4 파우더통 ... 1607 잡화 1608 의류 1609 여성 1610 패션 1611 생활 이 keyword로 네이버 쇼핑에 검색 한 후 Top 100 정도의 가격을 구해 평균을 내보고 싶다. 가장 단순하게 시도를 먼저 해보자. tmp = "키보드" url = (" https://search.shopping.naver.com/search/all?frm=NVSCPRO&origQuery& " "pagingSize=80&" "&productSet=total&" f"query={tmp}&" "sort=rel&" "timestamp=&" "viewType=list") headers={'User-agent': 'Mozilla/5.0'} response = req..