llm-universe-第一节

4dBmk 笔记 18 次阅读 发布于 2024-04-17 最后更新于 2024-04-17 1237 字 预计阅读时间: 6 分钟


项目地址:https://github.com/datawhalechina/llm-universe

参考官方wiki开通一个阿里云服务器

接下来的前提是你已使用vscode连接到了服务器

一、使用说明

这里我们详细介绍了环境配置的每一步骤,针对不同的情况,我们提供了不同的配置指南。

整个指南包括两部分,第一部分是全新环境配置指南,第二部分是通用环境配置。

对于完全没配置过环境的新手或者新一个新的服务器(如阿里云)来说可以按照全新环境配置指南进行配置。

对于已经有一定经验的用户,或者本地安装有环境基础,则可以采用通用环境配置

二、全新环境配置指南

基础环境配置(配置 git 和 conda)

首先在机子上生成SSH 密钥

ssh-keygen

弹出的几个输入参数默认回车,随后ssh密钥默认保存在/root/.ssh/id_rsa.pub

查看密钥

cat ~/.ssh/id_rsa.pub

将输出的密钥内容复制保存

登录github,选择"设置"

image-20240417105053312
image-20240417104839491

将刚才保存的ssh key填写到key栏,title栏备注一个名字方便辨认,保存

image-20240417104903453

安装 conda 环境

  1. linux 环境(通常采用 linux 环境)
  2. 安装: mkdir -p ~/miniconda3 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3 rm -rf ~/miniconda3/miniconda.sh
  3. 初始化: ~/miniconda3/bin/conda init bash ~/miniconda3/bin/conda init zsh
  4. 新建终端,检查 conda 是否安装成功 conda --version
image-20240417212638272

三、通用环境配置

1.新建虚拟环境

conda create -n llm-universe python=3.10

2.激活虚拟环境

conda activate llm-universe

ps:第三步前请设置git用户名和邮箱

git config --global user.name "Username"
git config --global user.email "[email protected]"

3.在希望存储项目的路径下克隆当前仓库

git clone [email protected]:datawhalechina/llm-universe.git

(如果出现Are you sure you want to continue connecting (yes/no/[fingerprint])? 输入yes)

4.将目录切换到 llm-universe

cd llm-universe

5.安装所需的包

pip install -r requirements.txt

通常可以通过清华源加速安装 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

四、VSCode 配置 Python 环境

  1. 安装 Python 插件 本教程基于 Python 语言开发, 为了更好的开发体验,我们需要安装 Python 插件。 在插件市场中搜索Python,找到Python插件并安装。 这时当我们执行 Python 代码时,就会自动识别我们的 Python 环境,并提供代码补全等功能,方便我们进行开发。
  2. 安装 Jupyter 插件 本教程中,我们使用 Jupyter Notebook 进行开发,所以需要安装 Jupyter 插件。 在插件市场中搜索Jupyter,找到Jupyter插件并安装。
  3. 为 Jupyter Notebook 配置 Python 环境
  4. 打开一个 Jupyter Notebook
  5. 点击右上角的 选择 Python 解释器(显示内容会根据选择环境的名称变化),进行当前 Jupyter Notebook 的 Python 环境的选择。
image-20240417213859449

五、其他资源下载

下载 NLTK 相关资源

我们在使用开源词向量模型构建开源词向量的时候,需要用到第三方库 nltk 的一些资源。正常情况下,其会自动从互联网上下载,但可能由于网络原因会导致下载中断。当我们使用 nltk 时就会报错。此处我们从国内仓库镜像地址下载相关资源。

我们用以下命令下载 nltk 资源并解压:

cd /root
git clone https://gitee.com/yzy0612/nltk_data.git  --branch gh-pages
cd nltk_data
mv packages/*  ./
cd tokenizers
unzip punkt.zip
cd ../taggers
unzip averaged_perceptron_tagger.zip

GitHub Codespaces 概述&环境配置(可选)

这个算是云主机,如果上面服务器部署成功了,没必要使用该服务!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

首先确定是否具有可以流畅访问GitHub的网络环境 否则仍建议使用阿里云

一、什么是代码空间?

代码空间是托管在云中的开发环境。 可通过将配置文件提交到存储库(通常称为“配置即代码”)来为 GitHub Codespaces 自定义项目,这将为项目的所有用户创建可重复的 codespace 配置。 有关详细信息,请参阅“开发容器简介”。

官方文档

二、创建第一个codespace

  1. 打开网址链接:https://github.com/features/codespaces
  2. 登录你的 GitHub 账户
  3. 点击图示 Your repositories
image-20240417215516642

4.进入自己的存储库列表后,点击图示 New,新建一个存储库

image-20240417215602843

这里根据自己需要设置即可,为方便和安全起见 Add a README file 建议勾上,同时选择 Private(因为课程中用到 API key,注意保护隐私),设置完成后点击 Create repository

image-20240417215745731
image-20240417215822856

等待一段时间后会出现如下界面,接下来操作与 VSCode 相同,可根据需要安装插件调整设置

是一名喜欢每天折腾的咸鱼!
也是一名半退役的算竞摸鱼选手,参与过icpc,天梯赛,蓝桥等比赛.
---------------------------------------------------
百度 飞桨领航团-团长
Datawhale -鲸英助教团成员
上海人工智能实验室 书生·浦语实战营- 助教
---------------------------------------------------
认证类:
华为 Harmony OS应用开发者高级认证,
NISP 一级认证,
H3C NE-RS网络工程师认证
---------------------------------------------------
荣获奖项荣誉:
第十八届“挑战杯”全国大学生课外学术科技作品竞赛 “揭榜挂帅”专项赛-全国特等奖、
“美亚杯”第八届中国电子取证大赛 三等奖、
“蓝桥杯”国优、
中国高校计算机大赛-团体程序天梯赛 省高校一等奖、
“蓝桥杯”省一等奖、
H3C新华三杯 省三等奖、
中国移动“梧桐杯”大数据创新大赛 省三等奖、
百度 飞桨领航团 金牌团长
最后更新于 2024-04-17