본문 바로가기
반응형

분류 전체보기2762

lm_studio 헤드리스 CLI로 Gemma·Claude 로컬 LLM 실행 자동화하기 개요이 글은 LM Studio의 헤드리스(무 GUI) 실행 기능을 이용해 로컬에서 Gemma나 Claude 계열 모델(또는 LM Studio에서 지원하는 유사 LLM)을 자동으로 다운로드·실행하는 방법을 설명합니다. macOS에서 파이썬을 사용해 실행 스크립트를 만들고, LM Studio의 CLI 도구(lms)를 호출해 모델을 관리하는 실무 중심의 가이드를 제공합니다.기본 문법 / 주요 파라미터아래 표는 LM Studio의 로컬 실행/관리용 CLI(문서 및 앱 내 기능 기준)의 핵심 옵션을 정리한 것입니다. (LM Studio는 앱과 lms CLI를 제공하며, 모델 다운로드·실행·노출 등의 기능을 지원합니다.) 옵션설명예시 값 --model실행할 모델 식별자 또는 경로gemma-1-.. 2026. 4. 6.
torch.cuda.set_device로 GPU 세션 자동 전환하기 개요torch.cuda.set_device는 현재 파이썬 프로세스의 기본 CUDA 디바이스를 지정하는 함수입니다. 여러 GPU가 있는 환경에서 특정 GPU를 기본으로 설정해 텐서/모델 할당과 연산의 대상 디바이스를 일관되게 관리할 때 유용합니다. PyTorch Lightning 등 프레임워크도 내부에서 이를 호출해 세션(환경)을 올바른 GPU로 자동 전환합니다.기본 문법 / 주요 파라미터 함수/옵션설명예시 값 torch.cuda.set_device(device)프로세스의 기본 CUDA 디바이스를 설정합니다. 이후 디바이스 인자를 주지 않으면 기본 디바이스가 사용됩니다.0, 'cuda:1', torch.device('cuda:2') torch.cuda.current_device(.. 2026. 4. 5.
asyncio.TaskGroup으로 비동기 작업 안전하게 관리하기 개요asyncio.TaskGroup은 Python의 asyncio에서 여러 비동기 작업(태스크)을 구조적으로 묶어 안전하게 실행하고 예외를 관리하는 도구입니다. TaskGroup을 사용하면 하위 태스크들이 생성, 취소, 예외 발생 시 안전하게 정리되며, 예외가 여러 개 발생하면 ExceptionGroup으로 묶어 호출자에게 전달합니다.기본 문법 / 주요 파라미터 메서드 / 파라미터설명 asyncio.TaskGroup()비동기 컨텍스트 매니저로 사용. async with 구문과 함께 하위 태스크를 관리. TaskGroup.create_task(coro, *, name=None)하위 코루틴을 태스크로 생성하여 그룹에 등록. name은 태스크 이름(디버깅용, 선택적). Task.. 2026. 4. 4.
Lemonade로 GPU·NPU 가속 로컬 LLM 서버 자동화하기 개요\nLemonade는 로컬 환경에서 GPU뿐 아니라 NPU(예: HUAWEI Ascend)까지 활용해 고성능 LLM 추론 서버를 운영할 수 있게 해주는 오픈소스 프로젝트입니다. 클라우드 의존도를 낮추고 데이터 프라이버시를 유지하면서도, 로컬 하드웨어(AMD GPU, NPU 등)를 최대한 활용해 비용과 지연을 줄이는 것이 장점입니다.\n\n기본 문법 / 주요 파라미터\n\n \n \n 명령 / 파라미터\n 설명\n 예시 / 비고\n \n \n \n \n tools/dist_train.sh \n MM* 계열에서 다중 NPU/GPU를 사용해 분산 학습(또는 추론 파이프라인) 실행\n ./tools/dist_train.sh conf.. 2026. 4. 3.
GitPython + scipy.stats로 베이지안 git bisection 자동화하기 개요이 글에서는 GitPython을 이용해 Git 저장소를 코드로 제어하고, scipy.stats의 베이지안 확률 모델을 사용해 테스트 실패를 일으킨 커밋(회귀)을 자동으로 찾아내는 방법을 설명합니다. 단순한 이진 탐색 대신 베이지안 업데이트를 사용하면 불확실성(테스트의 불안정성, 플akiness)을 고려해 더 안정적으로 의심 커밋을 좁혀갈 수 있습니다.기본 문법 / 주요 파라미터 함수 / 클래스주요 파라미터설명 git.Repo(path) path: str 로컬 저장소 객체를 생성. 이미 존재하는 repo를 가리킬 때 사용. Repo.clone_from(url, to_path) url: str, to_path: str .. 2026. 4. 2.
transformers.KVCache 최적화로 대형언어모델 메모리 절감하기 개요KV Cache Quantization은 모델 추론 시에 생성되는 Key/Value 캐시를 정수형(int8/int4)으로 양자화해 런타임 GPU 메모리 사용량을 크게 줄이는 기술입니다. 특히 대형 언어모델(LLM) 서비스를 다중 동시 사용자로 운영할 때 KV 캐시가 병목이 되므로, 메모리 절감은 동시성 및 처리량(throughput) 향상으로 바로 연결됩니다.기본 문법 / 주요 파라미터 옵션 / 파라미터설명 --calib-dataset캘리브레이션(quantization)용 데이터셋 이름 (예: 'ptb') --calib-samples캘리브레이션에 사용할 샘플 수 (예: 128) --calib-seqlen캘리브레이션 시 사용할 최대 시퀀스 길이 (예: 2048) -.. 2026. 4. 1.
반응형