コンテンツにスキップ

DeepSeek-R1

出典: フリー百科事典『ウィキペディア(Wikipedia)』
DeepSeek-R1
初版 2025年1月20日 (44日前) (2025-01-20)
リポジトリ DeepSeek-R1 - GitHub
種別 大規模言語モデル
ライセンス MIT License
テンプレートを表示

DeepSeek-R1は、DeepSeek2025年1月20日にリリースした大規模言語モデルである。特に数学プログラミング、論理的な思考などのタスクに適しており、その性能はOpenAI o1並みである。[1][2]

OpenAIのGPTシリーズのような知識に基づいて応答を返す物はDeepSeek-Vシリーズで提供していて、DeepSeek-RシリーズはOpenAI oシリーズと同様に論理的思考力を強化したものである。

訓練費用

[編集]

DeepSeek-R1の論文では、その訓練費用などの詳細は公開されていない。[3]

DeepSeek-V3 Technical Reportでは、DeepSeek-V3をDeepSeekは米国の輸出規制により中国市場向けに特別供給されたNVIDIA H800を2048枚使用して訓練を行ったことを明らかにしており、実際はNVIDIA H800を購入しているが、訓練時間は合計278.8万時間だったので、$2/時間でレンタルしたと換算すると、訓練費用は557.6万ドルであり、類似のアメリカ企業のクローズドモデルよりもはるかに安い。Technical Reportでも書かれているが、あくまでも計算機を動かした時間の費用だけであり、それ以外にも様々な費用がかかっている。[4][2][5][6]

API

[編集]

DeepSeek-R1はMITライセンスオープンソース化されており、誰でも自由にこのモデルを使用することができる。これには商業利用も含まれる。ユーザーはDeepSeekの公式ウェブサイトとアプリで、公式が提供するサービスを利用できる。[1]

DeepSeek-R1の公開時に提供されたAPIサービスの価格は、入力トークン100万個あたり$0.14(キャッシュヒット時)/ $0.55(キャッシュミス時)、出力トークン100万個あたり$2.19であり、出力トークンの価格はOpenAI o1($60.00[7])のわずか3.65%である。[8]

Hugging Face[9]GitHub Models[10]Azure AI Foundry[11]Amazon Web Services[12]などでも利用可能である。

GitHub ModelsでもDeepSeek-R1の方がOpenAI o1よりも安価で、2025年2月1日現在、DeepSeek-R1はRate limit tierがHighに分類されているため、無償プランでも1日50回利用可能だが、OpenAI o1は無償では利用不可で、Microsoft Copilot Pro(月額$20)に契約している人でも1日8回に制限されている[13]

DeepSeek-R1をローカルで実行するには、合計800GB以上のGPUのメモリが必要であり、Amazon Web Servicesの場合は、NVIDIA H200(メモリ141GB)8枚で実行している。[14]

モデル

[編集]
  • DeepSeek-R1-Zero - パラメータ数671B
  • DeepSeek-R1 - パラメータ数671B

DeepSeek-R1-Zero と DeepSeek-R1 は DeepSeek-V3-Base を元に訓練されている。DeepSeek-R1-Zero は教師ありファインチューニングを行わずに、大規模強化学習だけで訓練されている。DeepSeek-R1 は強化学習の前にコールド・スタート・データを組み込むことで性能を改善したものである。[15]

蒸留モデル

[編集]
  • Qwen
    • DeepSeek-R1-Distill-Qwen-1.5B
    • DeepSeek-R1-Distill-Qwen-7B
    • DeepSeek-R1-Distill-Qwen-14B
    • DeepSeek-R1-Distill-Qwen-32B
  • Llama
    • DeepSeek-R1-Distill-Llama-8B
    • DeepSeek-R1-Distill-Llama-70B

ベンチマークでは、数学やプログラミングの課題において、DeepSeek-R1-Distill-Qwen-32BやDeepSeek-R1-Distill-Llama-70BはOpenAI o1-mini並みの性能がある[15]。パラメータはbfloat16(2バイト)なので、これらは、NVIDIA H200(メモリ141GB)1枚で実行可能である[16]

パラメータ数が少ないものであれば普通のパソコンで動作し、LM Studioなどが利用可能である。[17]

出典

[編集]
  1. ^ a b DeepSeek-R1 Release | DeepSeek API Docs”. api-docs.deepseek.com. 1 February 2025閲覧。
  2. ^ a b DeepSeek横空出世,美中AI竞争会迎来根本性改变吗?” (中国語). 美国之音 (2025年1月28日). 2025年1月28日閲覧。
  3. ^ DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1”. February 1, 2025閲覧。
  4. ^ DeepSeek-V3/DeepSeek_V3.pdf at main · deepseek-ai/DeepSeek-V3”. February 1, 2025閲覧。
  5. ^ 孙铭蔚 (2025年1月22日). “量化巨头幻方创始人梁文锋参加总理座谈会并发言,他还创办了“AI界拼多多”” (中国語). 澎湃新闻. 2025年1月28日閲覧。
  6. ^ 吴遇利 (2025年1月27日). “DeepSeek“恐惧感”支配硅谷!Meta被曝组建4个小组专门研究” (中国語). 澎湃新闻. 2025年1月29日閲覧。
  7. ^ 料金”. openai.com. 1 February 2025閲覧。
  8. ^ Models & Pricing | DeepSeek API Docs”. api-docs.deepseek.com. 1 February 2025閲覧。
  9. ^ deepseek-ai/DeepSeek-R1 · Hugging Face”. huggingface.co. 1 February 2025閲覧。
  10. ^ DeepSeek-R1 is now available in GitHub Models (Public Preview) · GitHub Changelog”. The GitHub Blog. 1 February 2025閲覧。
  11. ^ Sharma, Asha. “DeepSeek R1 is now available on Azure AI Foundry and GitHub | Microsoft Azure Blog”. Microsoft Azure Blog. 1 February 2025閲覧。
  12. ^ DeepSeek-R1 models now available on AWS”. February 1, 2025閲覧。
  13. ^ Prototyping with AI models - GitHub Docs”. February 1, 2025閲覧。
  14. ^ DeepSeek-R1 model now available in Amazon Bedrock Marketplace and Amazon SageMaker JumpStart”. February 1, 2025閲覧。
  15. ^ a b DeepSeek-R1/README.md at main · deepseek-ai/DeepSeek-R1”. January 31, 2025閲覧。
  16. ^ AI, Novita. “Fine-Tuning LLaMA 3.3 70B with RTX 4090: Is Local Training Enough?”. novita.ai. 1 February 2025閲覧。
  17. ^ Copilot+ PCやハイスペックマシンでお手軽ローカルLLM「LM Studio」を試してみた UIがかなり使いやすいぞ DeepSeekの小型モデルも動く”. ITmedia AI+. 2 February 2025閲覧。

関連項目

[編集]

外部リンク

[編集]