模型本地部署和運行中(zhōng),經常遇到這三個概念,llama,ollama,llama.cpp。 剛開始接觸時,的确有(yǒu)些傻傻分(fēn)不清楚。這裏簡單區(qū)分(fēn)理(lǐ)解下,方便快速上手。
簡單來講,llama 是一個Meta公(gōng)司開源的預訓練大型語言模型,llama.cpp用(yòng)于加載和運行 LLaMA 語言模型。ollama是大模型運行框架,它利用(yòng)了 llama.cpp 提供的底層功能(néng)。
LLaMa
LLama(又(yòu)稱為(wèi)羊駝)是預訓練開源語言模型,它來着Meta公(gōng)司(原Facebook公(gōng)司)。類似國(guó)内阿裏通義千問Qwen系列大模型、智譜AI的 GLM系列模型等。LLaMA系列模型以其高質(zhì)量、可(kě)擴展性和靈活性,在NLP領域取得了顯著的進展。通過不斷地技(jì )術創新(xīn)和優化,LLaMA模型在各種任務(wù)上展現了卓越的性能(néng),成為(wèi)了大型語言模型研究和應用(yòng)的重要裏程碑。
2024年4月19日,Meta在官網上官宣了Llama-3,作(zuò)為(wèi)繼Llama-1、Llama-2和Code-Llama之後的第三代模型,Llama-3在多(duō)個基準測試中(zhōng)實現了全面領先,性能(néng)優于業界同類*********的模型。
llama.cpp
llama.cpp 是一個開源的 C++ 庫, 它用(yòng)原始 C++ 重寫了 LLaMa 的推理(lǐ)代碼,是一種推理(lǐ)框架,用(yòng)于加載和運行 LLaMA 語言模型。通過一些優化和量化權重,llama.cpp能(néng)讓我們在各種以前無法想象的硬件上本地運行 LLaMa 模型。其中(zhōng):
在谷歌 Pixel5 手機上,它能(néng)以 1 token/s 的速度運行 7B 參數模型。
在 M2 芯片的 Macbook Pro 上,使用(yòng) 7B 參數模型的速度約為(wèi) 16 token/s
我們甚至于可(kě)以在 4GB RAM 的樹莓派上運行 7B 模型,盡管速度隻有(yǒu) 0.1 token/s
獲取代碼
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
在國(guó)内訪問,可(kě)以使用(yòng)gitcode.com替換,命令如下:
git clone https://gitcode.com/ggerganov/llama.cpp.git llama
(注:習慣起見,這裏将下載的llama.cpp重新(xīn)命名(míng)為(wèi)llama)
llama.cpp提供了基礎的推理(lǐ)功能(néng),但缺乏一些高級功能(néng),如上下文(wén)管理(lǐ)、插件系統等。
Ollama
Ollama是一個開源的大型語言模型服務(wù)工(gōng)具(jù),它幫助用(yòng)戶快速在本地運行大模型。通過簡單的安(ān)裝(zhuāng)指令,用(yòng)戶可(kě)以執行一條命令就在本地運行開源大型語言模型,如Llama 2。Ollama極大地簡化了在Docker容器内部署和管理(lǐ)LLM的過程,使得用(yòng)戶能(néng)夠快速地在本地運行大型語言模型。
一句話:Ollama是一個簡明易用(yòng)的本地大模型運行框架,有(yǒu)點類似docker的概念。
Ollama下載和安(ān)裝(zhuāng)(支持windows、linux和Mac):
Download Ollama on macOS
Get up and running with large language models.
https://ollama.com/download
Ollama已經支持了很(hěn)多(duō)開源大模型庫,參考官方地址:
library
Get up and running with large language models.
https://ollama.com/library
付費1元即可(kě)閱讀全文(wén)