생성형AI 소식

챗지피티 4o보다 뛰어난 생성형 AI 등장

프롬프트엔지니어 2024. 7. 3. 08:34

 

2024년 6월21일 Antropic (Anthropic은 미국의 인공지능 스타트업이다. 창업자 전원이 OpenAI 출신의 인물이며, 생성형 인공지능 업체 중에서는 OpenAI에 이어서 규모가 가장 큰 기업이다. OpenAI가 마이크로소프트의 투자를 받으며 영리화되자, 의견 충돌로 인해 차례로 퇴사하고 설립했다고 한다. 따라서 Anthropic은 공익기업을 표방한다. 나무위키)은 "Claude 3.5 Sonnet"를 발표했습니다. 

 

Antrophic의 발표에의하면 Claude 3.5 Sonnet은 Claude 3.5 모델 제품군의 첫 번째 출시작인 Claude 3.5 Sonnet을 2024년 6월 20일 출시하여 지능과 성능 측면에서 업계 기준을 높였다고 합니다. 

 

I. Claude 3.5 Sonnet 이란?

1. 주요 특징:

  • 경쟁 모델과 Claude 3 Opus보다 우수한 성능
  • 중급 모델의 속도와 비용 유지

2. 이용 가능성:

  • Claude.ai와 Claude iOS 앱에서 무료 사용 가능
  • Claude Pro와 Team 플랜 구독자: 높은 사용 한도 제공
  • Anthropic API, Amazon Bedrock, Google Cloud's Vertex AI에서도 이용 가능

3. 비용 및 사양:

  • 입력 토큰: 백만 개당 3달러
  • 출력 토큰: 백만 개당 15달러
  • 컨텍스트 윈도우: 200K 토큰

 

 

 

II. Claude 3.5 Sonnet 성과 요약:

 

1. 주요 성과 

  • 대학원 수준 추론(GPQA), 학부 수준 지식(MMLU), 코딩 능력(HumanEval)에서 새로운 업계 기준 설정
  • 뉘앙스, 유머, 복잡한 지시사항에 대한 이해 능력을 향상시킴
  • 자연스럽고 친근한 톤의 고품질 콘텐츠 작성

2. 성능 및 효율성:

  • Claude 3 Opus보다 2배 빠른 속도
  • 비용 효율적 가격으로 복잡한 작업에 적합

3. 코딩 능력:

  • 내부 에이전트 코딩 평가에서 64% 문제 해결 (Claude 3 Opus: 38%)
  • 오픈 소스 코드베이스 개선 능력
  • 독립적인 코드 작성, 편집, 실행 가능
  • 코드 번역 및 레거시 애플리케이션 업데이트에 효과적

 

전체적으로 '대학 재학생 수준의 지식에 대한 Zero-shot CoT'와 '수학 문제 해결'을 제외하고는 GPT-4o보다 우수한 벤치마크를 보여줍니다. 다만 Claude 3.5 Sonnet 에 직접 프롬프팅을 하여 확인한 결과 그림을 그린다던지 작곡을 한다던지 하는 능력은 없는 것을 확인하였습니다. 

 

객관적인 ChatGPT-4o와의 벤치마크 비교는 OpenAI사의 벤치마크 결고가 나오면 좀더 정확한 비교가 가능 할 것으로 생각됩니다만 ChatGPT의 벤치마크 결과가 없는 영역을 제외하고 ' Claude 3.5 Sonnet'의 결과가 정확하게 어느 정도 좋은 지를 판단하기가 어려운 면이 있습니다. 

 

[참고]Claude 3.5 Sonnet 링크

https://www.anthropic.com/news/claude-3-5-sonnet

 

Introducing Claude 3.5 Sonnet

Introducing Claude 3.5 Sonnet—our most intelligent model yet. Sonnet now outperforms competitor models and Claude 3 Opus on key evaluations, at twice the speed.

www.anthropic.com