项目地址:https://github.com/datawhalechina/llm-universe
参考官方wiki开通一个阿里云服务器
接下来的前提是你已使用vscode连接到了服务器
一、使用说明
这里我们详细介绍了环境配置的每一步骤,针对不同的情况,我们提供了不同的配置指南。
整个指南包括两部分,第一部分是全新环境配置指南,第二部分是通用环境配置。
对于完全没配置过环境的新手或者新一个新的服务器(如阿里云)来说可以按照全新环境配置指南
进行配置。
对于已经有一定经验的用户,或者本地安装有环境基础,则可以采用通用环境配置
。
二、全新环境配置指南
基础环境配置(配置 git 和 conda)
首先在机子上生成SSH 密钥
ssh-keygen
弹出的几个输入参数默认回车,随后ssh密钥默认保存在/root/.ssh/id_rsa.pub
查看密钥
cat ~/.ssh/id_rsa.pub
将输出的密钥内容复制保存
登录github,选择"设置"
将刚才保存的ssh key填写到key栏,title栏备注一个名字方便辨认,保存
安装 conda 环境
- linux 环境(通常采用 linux 环境)
- 安装:
mkdir -p ~/miniconda3 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3 rm -rf ~/miniconda3/miniconda.sh
- 初始化:
~/miniconda3/bin/conda init bash ~/miniconda3/bin/conda init zsh
- 新建终端,检查 conda 是否安装成功
conda --version
三、通用环境配置
1.新建虚拟环境
conda create -n llm-universe python=3.10
2.激活虚拟环境
conda activate llm-universe
ps:第三步前请设置git用户名和邮箱
git config --global user.name "Username"
git config --global user.email "[email protected]"
3.在希望存储项目的路径下克隆当前仓库
git clone [email protected]:datawhalechina/llm-universe.git
(如果出现Are you sure you want to continue connecting (yes/no/[fingerprint])?
输入yes)
4.将目录切换到 llm-universe
cd llm-universe
5.安装所需的包
pip install -r requirements.txt
通常可以通过清华源加速安装 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
四、VSCode 配置 Python 环境
- 安装 Python 插件 本教程基于 Python 语言开发, 为了更好的开发体验,我们需要安装 Python 插件。 在插件市场中搜索
Python
,找到Python
插件并安装。 这时当我们执行 Python 代码时,就会自动识别我们的 Python 环境,并提供代码补全等功能,方便我们进行开发。 - 安装 Jupyter 插件 本教程中,我们使用 Jupyter Notebook 进行开发,所以需要安装 Jupyter 插件。 在插件市场中搜索
Jupyter
,找到Jupyter
插件并安装。 - 为 Jupyter Notebook 配置 Python 环境
- 打开一个 Jupyter Notebook
- 点击右上角的
选择 Python 解释器(显示内容会根据选择环境的名称变化)
,进行当前 Jupyter Notebook 的 Python 环境的选择。
五、其他资源下载
下载 NLTK 相关资源
我们在使用开源词向量模型构建开源词向量的时候,需要用到第三方库 nltk 的一些资源。正常情况下,其会自动从互联网上下载,但可能由于网络原因会导致下载中断。当我们使用 nltk 时就会报错。此处我们从国内仓库镜像地址下载相关资源。
我们用以下命令下载 nltk 资源并解压:
cd /root
git clone https://gitee.com/yzy0612/nltk_data.git --branch gh-pages
cd nltk_data
mv packages/* ./
cd tokenizers
unzip punkt.zip
cd ../taggers
unzip averaged_perceptron_tagger.zip
GitHub Codespaces 概述&环境配置(可选)
这个算是云主机,如果上面服务器部署成功了,没必要使用该服务!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
首先确定是否具有可以流畅访问GitHub的网络环境 否则仍建议使用阿里云
一、什么是代码空间?
代码空间是托管在云中的开发环境。 可通过将配置文件提交到存储库(通常称为“配置即代码”)来为 GitHub Codespaces 自定义项目,这将为项目的所有用户创建可重复的 codespace 配置。 有关详细信息,请参阅“开发容器简介”。
二、创建第一个codespace
- 打开网址链接:https://github.com/features/codespaces
- 登录你的 GitHub 账户
- 点击图示 Your repositories
4.进入自己的存储库列表后,点击图示 New,新建一个存储库
这里根据自己需要设置即可,为方便和安全起见 Add a README file 建议勾上,同时选择 Private(因为课程中用到 API key,注意保护隐私),设置完成后点击 Create repository
等待一段时间后会出现如下界面,接下来操作与 VSCode 相同,可根据需要安装插件调整设置
Comments NOTHING