공부 15

[기초] 데이터 사이언스 응용_word vocabulary

5개의 문장이 있다고 하자.이때 5개의 모든 문장을 vocabulary로 만들거다. 대신 중복은 없어야한다. 이를 직접 코드를 짜줄 수도 있지만 이미 구현된 라이브러리가 있다.from tensorflow.keras.preprocessing.text import Tokenizertokenizer = Tokenizer()tokenizer.fit_on_texts(preprocessed_headline)vocab_size = len(tokenizer.word_index) + 1print('단어 집합의 크기 : %d' % vocab_size)  이에 대한 자세한 GPT의 설명!1. 사전(vocabulary) 변수:tokenizer.word_index:이 변수는 텍스트에서 발견된 각 단어와 그 단어에 매핑된 고유한..

공부/파이썬 2024.10.24

[기초] 데이터 사이언스 응용_데이터 형식

데이터 사이언스 응용 과제를 하면서 겸사겸사 하나하나 뜯어보면서 코드를 쓰다보니까알아서 데이터 형식에 대해서 공부됨.. .ㅎㅎ 우선 왜 굳이 리스트로 형식을 바꿔서 저장하나 했는데, 이게 리스트의 장점이 있더라!바로 다양한 형식을 한 리스트에 저장할 수 있고, 데이터 프레임을 자유자재로 바꿀 수 있어서 데이터 전처리 할 때 유용함!! 이렇게 하나하나 공부해가는 중  과제하면서 모르던거, 정리하고 싶은 내용 정리! 첫번째로 데이터 형식에 대한 정리.1차원 데이터1차원 데이터 구조:리스트 (List):1차원 데이터입니다. 순차적으로 데이터가 나열된 단일 차원입니다.특징: 순서가 있으며, 중복을 허용하고, 변경 가능한 자료형입니다. 다양한 데이터 타입을 섞어 저장할 수 있습니다용도: 일반적으로 데이터의 순서를..

공부/파이썬 2024.10.24

[연구] 논문 검색 툴

이제 AI기술 활용 어플리케이션이 미친듯이 쏟아져나오고 있다.이것을 어떻게 잘 활용하느냐에 따라서 나의 효율이 매우 달라진다. 물론 너무 남용하면 나에게 해가 될 수 있지만 ㅠ 나에게 필요한 것을 명확히 알고 해당 어플리케이션이 있는지 확인 후 잘 활용한다면 정말 좋은 도구가 될 수 있다.현재 내가 석사에서 하고 있는 단계는 Problem Space 찾기해당 논문들 많이 읽기Paper Proposal  이를 위해서 구글 스칼라에서 많은 논문들의 바다에 빠져야한다. 내가 원하는 주제의 연구가 있는지, 현재 내가 궁금한 도메인에 어떤 연구들이 진행이 되었는지, 내가 하려고 하는 연구가 정말 없는 지 잘 검색해야지, 헛수고를 덜 할 수 있다.즉 엄청 많은 논문들 사이에서 내가 설정한 PS와 관련된 논문들을 잘..

공부/기타 2024.10.09

ZSL: Zero-shot learning

인공지능 분야에 있다보면 가끔 접하는 단어.제로샷 학습. 데이터 사이언스 응용 수업을 수강하다가 갑자기 궁금해진 개념.대강 이전에 본적 없는 제로. 제로를 겨냥하여 학습한다. 이런 개념으로만 해석이 되는데, 이 용어가 실무에서 사용되고 있기 때문에 명확하게 이 용어가 무슨 뜻인지 알아가보고자 한다.1. One-shot learning/Few-shot learning/Zero-shot learning먼저 이 개념을 알아보자.딥러닝 모델에서 시작된 이 세가지 용어.원샷, 퓨샷 학습은 데이터의 양을 나타내는 용어이다. 정리 [개념] 생성 AI의 학습 방식: 제로샷·원샷·퓨샷 러닝최근 챗GPT로 인해 부상한 제로샷(zero-shot), 원샷(one-shot), 퓨샷(few-shot) 러닝 기법은 데이터를 일일이..

선형대수 _ 1. 고유값(Eigenvalue)와 고유벡터(Eigenvector)

공학수학 또는 선형대수를 배울 때 고유값과, 고유벡터에 대해서 자주 배웠었다.그 개념을 정확히 이해하기 보다는 그냥 수업을 충실하게 듣고 그에 맞는 해답을 내놓았다. 왜 이 개념이 필요한지? 공학에서 왜 중요한지? 모르는 상태에서 벼락치기를 했기 때문에 금방 내용을 까먹었고, 언젠가 다시 공부해야지 느끼고는 있었지만, 당장 필요한 지식이 아니니,,, 차일피일 미루던 개념이다.  이제 인공지능 전공이며, 현재 데이터 사이언스 수업을 들으면서 자연스럽게 접한 개념.이번에는 꼭 이걸 정복하고 다시는 잊지 않겠다!.우선 각 단어의 정의를 먼저 살펴봅시다!고유벡터(Eigenvector)함수를 통해 선형 변환할 때 크기만 변하고 방향은 변하지 않는 벡터 가장 이해가 쉽게 되었던 예시는 지구의 자전이다.지구가 자전한..

(작성 중) MLOps 3_Kubeflow 구현 사례

사이트: https://www.samsungsds.com/kr/techreport/kubernetes-mlops.html 오픈소스를 활용한 쿠버네티스 기반 MLOps 플랫폼 도입 | 클라우드 기술 백서 | 삼성SDS최근 글로벌 리서치사의 조사에 따르면 많은 글로벌 기업들이 AI를 기업의 핵심 활동에 활용하고 있다고 합니다. 특히, 제품 개발, 서비스 운영 및 마케팅 영역에서의 사용이 활발하다고 하며,www.samsungsds.com

공부/CS 2024.09.26

MLOps 2_Kubeflow

그림 설명더보기1. ML Tools (상단)TensorFlow, PyTorch, scikit-learn, MPI, MXNet, XGBoost 등의 다양한 머신러닝 툴이 지원됩니다. 이는 모델 개발과 훈련에 사용되는 주요 프레임워크들을 나타내며, 개발자는 필요에 따라 이를 선택해 사용합니다.2. Kubeflow Applications 및 Scaffolding (가운데 부분)Kubeflow는 쿠버네티스 기반의 오픈소스 머신러닝 플랫폼으로, ML 파이프라인과 워크플로우를 관리할 수 있도록 지원합니다. 이 영역에서 데이터 수집, 전처리 및 파이프라인 연계가 이뤄집니다.각 워크플로우 단계는 아래와 같이 나뉘어 있습니다:Notebook Server:개발 환경을 제공하는 단계입니다. Jupyter, VS Code, ..

공부/CS 2024.09.26

MLOps 1_왜 필요한가?

MLOps에 대해 기재한 사이트에 대해서 자세히 읽어보고 리뷰를 하려고 한다.사이트: https://www.samsungsds.com/kr/techreport/kubernetes-mlops.html[오픈소스를 활용한 쿠버네티스 기반 MLOps 플랫폼 도입 | 클라우드 기술 백서 | 삼성SDS 오픈소스를 활용한 쿠버네티스 기반 MLOps 플랫폼 도입 | 클라우드 기술 백서 | 삼성SDS최근 글로벌 리서치사의 조사에 따르면 많은 글로벌 기업들이 AI를 기업의 핵심 활동에 활용하고 있다고 합니다. 특히, 제품 개발, 서비스 운영 및 마케팅 영역에서의 사용이 활발하다고 하며,www.samsungsds.com AI서비스 개발 및 운영 문제점서로의 업무를 모름모델 개발: 데이터 사이언티스트ML Engineer: A..

공부/CS 2024.09.26