• 基于Deepseek的AI试题问答

    基于Deepseek的AI试题问答 2025-02-28 09:46

    需求 项目目标‌ 构建一个基于大模型微调的AI试题问答系统,支持数学、历史、英语等多学科试题的智能解析、答案生成及知识点关联,适配考试场景的自动评分与错题分析功能‌。 核心功能需求‌ ‌试题交互与解析‌:支持选择、填空、判断、问答等题型交互,自动生成试题解析(含解题步骤与知识点标注)‌。 ‌智能查询

  • xtuner微调大模型

    xtuner微调大模型 2025-02-26 09:31

    构建环境 # 创建虚拟环境 conda create --name xtuner-env python=3.10 -y conda activate xtuner-env # 安装xtuner git clone https://github.com/InternLM/xtuner.git cd

  • 矩阵分解 2025-01-11 15:48

    矩阵分解是一种通过将较大的矩阵分解为多个小矩阵已降低计算复杂度的技术,在模型训练微调上,通常用于简化模型、提高训练效率。矩阵分解有多种形式,一下是几种常见的模型微调权重分解方法: 奇异值分解 将矩阵分解为三个矩阵乘积的方法: W=U \Sigma V^{T} 其中: W是原始权重矩阵。 U和V是正交

  • LLM奥秘

    LLM奥秘 2025-01-09 21:47

    本文旨在通过最基础的数学内容,剔除机器学习中复杂的术语,从零描述LLM的工作原理。

  • LLaMA-Factory QuickStart

    LLaMA-Factory QuickStart 2025-01-09 21:32

    简介https://github.com/hiyouga/LLaMA-Factory/blob/main/README_zh.md LLama-Factory整合主流训练微调技术,适配LLaMA、Qwen、ChatGpt等主流开源模型,包含预训练(pt),指令微调(sft),基于人工反馈的对齐(rl

  • Llama

    Llama 2025-01-05 17:45

    Ollama 安装Ollamahttps://ollama.com/download 使用Ollama 启动Ollama ollama serve 拉取模型 ollama pull llama3 </

  • 模型词汇表修改及模型训练 2025-01-04 17:25

    在自然语言处理(NLP)任务中,词汇表(vocab)是模型理解文本的基础。一个良好的词汇表可以显著提升模型的性能和泛化能力。 词汇表的修改 加载预训练模型和分词器 首先加载预训练的BERT模型及其对应的分词器(`BertTokenizer`)。以下是代码示例: from transformers i

  • Transformer 架构详解

    Transformer 架构详解 2025-01-03 23:41

    Transformer 是一种神经网络架构。Transformer 最初在2017年的论文《Attention is All You Need》中被提出,并迅速成为深度学习模型的首选架构,广泛应用于文本生成、音频生成、图像识别、蛋白质结构预测等多个领域。 核心组件:每个基于Transformer的文