MCP로 AI 데이터 분석가 만들기
MCP를 이용해 AI 데이터 분석가를 만들어 보았습니다.
MCP를 이용해 AI 데이터 분석가를 만들어 보았습니다.
워크플로우 오픈소스 중 하나인 Temporal을 살펴보았습니다.
모델 학습의 어려움 1. 문제점 하나의 GPU로는 학습이 너무 느림 하나의 GPU 메모리만으로 모델의 가중치를 감당하기 어려움 해결책 배치 사이즈 줄이기 학습 속도가 배치 사이즈에 비례하여 감소 과접합으로 인한 정확도 저하 모델 사이즈 줄이기 낮은 정확도 ...
늦게나마 2024년 회고 글을 작성해 봤습니다.
Apache Iceberg의 버전 관리를 돕는 Project Nessie를 살펴보았습니다.
A/B 테스트를 가속화하는 CUPED 방법론을 살펴보았습니다.
데이터 카탈로그란? 데이터 카탈로그(Data Catalog)는 조직이 보유하고 있는 데이터를 체계적으로 정리하고 관리하는 데이터 플랫폼이다. 데이터베이스, 데이터 웨어하우스, 데이터 레이크 등 다양한 데이터 소스에서 메타데이터를 수집하여 사용자가 이를 쉽게 탐색하고 이해할 수 있도록 도와준다. 데이터 카탈로그는 일반적으로 다음과 같은 정보들을 제...
Text-to-SQL Text-to-SQL이란 사용자가 자연어를 입력하면 이를 SQL 쿼리로 변환하는 기술을 의미한다. 예를 들어 어떤 사용자가 “2024년 한 해 동안 개봉한 영화들을 알려줘.”라고 입력하면 Text-to-SQL은 그 응답으로 다음과 같은 SQL 쿼리를 생성해준다. SELECT title FROM movies WHERE YEAR...
이전 글에서는 Airbyte가 무엇이고, 어떤 목적으로 사용되는지에 대해 다루어 보았다. Airbyte를 활용하면 다양한 소스로부터 데이터를 수집하고 최소한의 변환만을 수행한 뒤 목적지로 데이터를 전송하는 작업을 간소화할 수 있다. 이번 글에서는 Airbyte가 내부적으로 어떻게 동작하고 있는지 파악하기 위해 백엔드 아키텍처 구성을 살펴보고자 한다....
최근 많은 회사에서 Data Ingestion 도구 중 하나인 Airbyte를 도입하고 있다. 이번 글에서는 Data Ingestion과 Airbyte가 무엇인지 알아보고자 한다. 본론에 앞서, 혹시나 데이터 엔지니어링에 관심이 있는 분이라면 Airbyted의 공식 블로그를 한번 읽어보길 추천한다. 이곳에는 Airbyte 뿐만 아니라 데이터 엔지니어...