2024/10/24 2

[기초] 데이터 사이언스 응용_word vocabulary

5개의 문장이 있다고 하자.이때 5개의 모든 문장을 vocabulary로 만들거다. 대신 중복은 없어야한다. 이를 직접 코드를 짜줄 수도 있지만 이미 구현된 라이브러리가 있다.from tensorflow.keras.preprocessing.text import Tokenizertokenizer = Tokenizer()tokenizer.fit_on_texts(preprocessed_headline)vocab_size = len(tokenizer.word_index) + 1print('단어 집합의 크기 : %d' % vocab_size)  이에 대한 자세한 GPT의 설명!1. 사전(vocabulary) 변수:tokenizer.word_index:이 변수는 텍스트에서 발견된 각 단어와 그 단어에 매핑된 고유한..

공부/파이썬 2024.10.24

[기초] 데이터 사이언스 응용_데이터 형식

데이터 사이언스 응용 과제를 하면서 겸사겸사 하나하나 뜯어보면서 코드를 쓰다보니까알아서 데이터 형식에 대해서 공부됨.. .ㅎㅎ 우선 왜 굳이 리스트로 형식을 바꿔서 저장하나 했는데, 이게 리스트의 장점이 있더라!바로 다양한 형식을 한 리스트에 저장할 수 있고, 데이터 프레임을 자유자재로 바꿀 수 있어서 데이터 전처리 할 때 유용함!! 이렇게 하나하나 공부해가는 중  과제하면서 모르던거, 정리하고 싶은 내용 정리! 첫번째로 데이터 형식에 대한 정리.1차원 데이터1차원 데이터 구조:리스트 (List):1차원 데이터입니다. 순차적으로 데이터가 나열된 단일 차원입니다.특징: 순서가 있으며, 중복을 허용하고, 변경 가능한 자료형입니다. 다양한 데이터 타입을 섞어 저장할 수 있습니다용도: 일반적으로 데이터의 순서를..

공부/파이썬 2024.10.24