分享
Easy Dataset × LLaMA Factory: 让大模型高效学习领域知识
输入“/”快速插入内容
📚
Easy Dataset × LLaMA Factory: 让大模型高效学习领域知识
2025年7月7日修改
14411
22355
34
7
Easy Dataset
是一个专为创建大型语言模型(LLM)微调数据集而设计的应用程序。它提供了直观的界面,用于上传特定领域的文件,智能分割内容,生成问题,并为模型微调生成高质量的训练数据。支持使用 OpenAI、DeepSeek、火山引擎等大模型 API 和 Ollama 本地模型调用。
LLaMA Factory
是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过 Web UI 界面零代码微调大模型,目前已经成为开源社区最热门的微调框架之一,GitHub 星标超过 4.6 万。支持全量微调、LoRA 微调、以及 SFT 和 DPO 等微调算法。
本教程使用 Easy Dataset 从五家互联网公司的公开财报构建 SFT 微调数据,并使用 LLaMA Factory 微调 Qwen2.5-3B-Instruct 模型,使微调后的模型能学习到财报数据集中的知识。
运行环境要求
•
GPU 显存:大于等于 12 GB(可使用
autodl.com
租用云 GPU)
•
CUDA 版本:高于 11.6
•
Python
版本:3.10
使用 Easy Dataset 生成微调数据
安装 Easy Dataset
方法一:使用安装包
如果操作系统为 Windows、Mac 或 ARM 架构的 Unix 系统,可以直接前往 Easy Dataset 仓库下载安装包:
https://github.com/ConardLi/easy-dataset/releases/latest
方法二:使用 Dockerfile
1.
从 GitHub 拉取 Easy Dataset 仓库
代码块
Bash
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
2.
构建 Docker 镜像
代码块
Bash
docker build -t easy-dataset .
3.
运行容器
代码块
Bash
docker run -d \
-p 1717:1717 \
-v {YOUR_LOCAL_DB_PATH}:/app/local-db \
--name easy-dataset \
easy-dataset
方法三:使用 NPM 安装
1.
下载 Node.js 和 pnpm
前往 Node.js 和 pnpm 官网安装环境:
https://nodejs.org/en/download
|
https://pnpm.io/
使用以下代码检查 Node.js 版本是否高于 18.0
代码块
Bash
node -v # v22.14.0
2.
从 GitHub 拉取 Easy Dataset 仓库
代码块
Bash
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
3.
安装软件依赖
代码块
Bash
pnpm install
4.
启动 Easy Dataset 应用
代码块
Bash
pnpm build
pnpm start
控制台如果出现以下输出,则说明启动成功。打开浏览器访问
对应网址
,即可看到 Easy Dataset 的界面。
代码块
Bash
> easy-dataset@1.2.3 start
> next start -p 1717
▲ Next.js 14.2.25
- Local: http://localhost:1717
✓ Ready in 287ms
示例数据下载
本教程准备了一批互联网公司财报作为示例数据,包含五篇国内互联网公司 2024 年二季度的财报,格式包括 txt 和 markdown。
可以使用
git
命令或者直接访问
仓库链接
下载。
代码块
Bash
git clone
https://github.com/llm-factory/FinancialData-SecondQuarter-2024.git
数据均为纯文本数据,如下为节选内容示例。
🥖
快手二季度净利润增超七成,CEO程一笑强调可灵AI商业化