챗지피티 4o보다 뛰어난 생성형 AI 등장
2024년 6월21일 Antropic (Anthropic은 미국의 인공지능 스타트업이다. 창업자 전원이 OpenAI 출신의 인물이며, 생성형 인공지능 업체 중에서는 OpenAI에 이어서 규모가 가장 큰 기업이다. OpenAI가 마이크로소프트의 투자를 받으며 영리화되자, 의견 충돌로 인해 차례로 퇴사하고 설립했다고 한다. 따라서 Anthropic은 공익기업을 표방한다. 나무위키)은 "Claude 3.5 Sonnet"를 발표했습니다.
Antrophic의 발표에의하면 Claude 3.5 Sonnet은 Claude 3.5 모델 제품군의 첫 번째 출시작인 Claude 3.5 Sonnet을 2024년 6월 20일 출시하여 지능과 성능 측면에서 업계 기준을 높였다고 합니다.
I. Claude 3.5 Sonnet 이란?
1. 주요 특징:
- 경쟁 모델과 Claude 3 Opus보다 우수한 성능
- 중급 모델의 속도와 비용 유지
2. 이용 가능성:
- Claude.ai와 Claude iOS 앱에서 무료 사용 가능
- Claude Pro와 Team 플랜 구독자: 높은 사용 한도 제공
- Anthropic API, Amazon Bedrock, Google Cloud's Vertex AI에서도 이용 가능
3. 비용 및 사양:
- 입력 토큰: 백만 개당 3달러
- 출력 토큰: 백만 개당 15달러
- 컨텍스트 윈도우: 200K 토큰
II. Claude 3.5 Sonnet 성과 요약:
1. 주요 성과
- 대학원 수준 추론(GPQA), 학부 수준 지식(MMLU), 코딩 능력(HumanEval)에서 새로운 업계 기준 설정
- 뉘앙스, 유머, 복잡한 지시사항에 대한 이해 능력을 향상시킴
- 자연스럽고 친근한 톤의 고품질 콘텐츠 작성
2. 성능 및 효율성:
- Claude 3 Opus보다 2배 빠른 속도
- 비용 효율적 가격으로 복잡한 작업에 적합
3. 코딩 능력:
- 내부 에이전트 코딩 평가에서 64% 문제 해결 (Claude 3 Opus: 38%)
- 오픈 소스 코드베이스 개선 능력
- 독립적인 코드 작성, 편집, 실행 가능
- 코드 번역 및 레거시 애플리케이션 업데이트에 효과적
전체적으로 '대학 재학생 수준의 지식에 대한 Zero-shot CoT'와 '수학 문제 해결'을 제외하고는 GPT-4o보다 우수한 벤치마크를 보여줍니다. 다만 Claude 3.5 Sonnet 에 직접 프롬프팅을 하여 확인한 결과 그림을 그린다던지 작곡을 한다던지 하는 능력은 없는 것을 확인하였습니다.
객관적인 ChatGPT-4o와의 벤치마크 비교는 OpenAI사의 벤치마크 결고가 나오면 좀더 정확한 비교가 가능 할 것으로 생각됩니다만 ChatGPT의 벤치마크 결과가 없는 영역을 제외하고 ' Claude 3.5 Sonnet'의 결과가 정확하게 어느 정도 좋은 지를 판단하기가 어려운 면이 있습니다.
[참고]Claude 3.5 Sonnet 링크
https://www.anthropic.com/news/claude-3-5-sonnet
Introducing Claude 3.5 Sonnet
Introducing Claude 3.5 Sonnet—our most intelligent model yet. Sonnet now outperforms competitor models and Claude 3 Opus on key evaluations, at twice the speed.
www.anthropic.com