Llama / 오픈소스 모델 상업적 이용 시 라이선스 어디까지 신경 써야 하나요?

Question

스타트업에서 자체 모델 서빙을 검토 중입니다. 비용 때문에 외부 API 대신 오픈소스 모델을 vLLM으로 직접 띄우려고 하는데, 라이선스가 생각보다 제각각이라 헷갈립니다.

Llama 계열은 커뮤니티 라이선스라는데 상업적으로 그냥 써도 되는 건가요?
Mistral 쪽은 Apache 2.0이라던데 그러면 자유로운 건가요?
파인튜닝해서 우리 제품에 넣고 서비스하면 산출물(모델 가중치, 생성 결과물)에 대한 권리는 어떻게 되나요?

법무 검토 들어가기 전에 엔지니어 입장에서 어디를 봐야 하는지 정리가 안 됩니다.

Accepted Answer

"오픈소스 모델"로 뭉뚱그리면 사고 납니다. 모델별로 라이선스 형태가 진짜 제각각이라 받으려는 그 체크포인트의 LICENSE 원문을 직접 읽는 수밖에 없어요.

Llama 계열 — OSI 정의의 오픈소스 아닙니다. Meta 자체 커뮤니티 라이선스예요. 상업 이용은 되는데 조건이 붙습니다. 대표적으로 월간 활성 사용자가 일정 기준(버전마다 다름) 넘는 대형 서비스는 별도 라이선스 받아야 하는 조항이 있고, 버전에 따라 모델 이름/출처 표기 의무, 산출물로 다른 모델 학습시키는 거에 대한 제약도 있습니다. "Llama니까 자유"는 위험한 가정이에요. 본인이 받는 정확한 버전 LICENSE를 보세요.

Mistral — 이것도 모델별로 다릅니다. 일부는 Apache 2.0으로 풀려서 진짜 자유로운데, 일부 상위/특정 모델은 별도 상업 라이선스나 연구용으로 나와요. "Mistral은 Apache"라고 일반화하면 안 되고 그 체크포인트 라이선스 확인하세요.

엔지니어가 법무 넘기기 전에 모델별로 이 4개만 뽑아두면 됩니다: ① LICENSE 원문 ② 상업 이용 허용 + 사용자 규모 임계치 ③ output 사용 제한 조항 ④ 파인튜닝 산출물 재배포 조건.

Answer

빠지기 쉬운 함정 두 개 보탤게요. 하나는 데이터셋 라이선스. 모델 가중치 라이선스만 보고 파인튜닝 데이터셋 라이선스를 안 보는 경우가 많은데, 인기 instruction 데이터셋 중에 비상업(non-commercial)이거나 특정 상용 모델 출력으로 만들어져서 "경쟁 모델 학습 금지" 걸리는 게 있습니다. 이걸로 튜닝한 모델을 상업 서비스에 올리면 가중치는 깨끗해도 데이터셋 쪽에서 터져요. 다른 하나는 임베딩/리랭커. 본 LLM만 신경 쓰다가 RAG에 같이 쓰는 임베딩 모델 라이선스를 놓칩니다. 인기 임베딩 중에 상업 이용에 별도 조건 붙는 것들 있어요. 파이프라인에 들어가는 모델 전부 점검하세요, LLM 하나만 보지 말고.

Llama / 오픈소스 모델 상업적 이용 시 라이선스 어디까지 신경 써야 하나요?

답변 2개