AI的使用第二期

前言：前段时间写了个关于 ai 使用小结分享下, 创建时间 2025-03-21 22:00

一、大模型的背景与来历：从神经网络到现代大语言模型
二、基础平台
三、对话：提问与提示词技巧
四、信息搜集
五、AI 编程
六、使用技巧
七、API 调用与知识库
八、本地大模型部署
九、多模态生成
十、资源与社区
十一、硬件性能与优化

连接主义的萌芽（1940 s-1980 s） 神经网络的概念源于 1943 年神经生理学家 Warren McCulloch 和数学家 Walter Pitts 提出了第一个数学神经网络模型提出的“M-P 神经元模型”，但受限于算力和数据，长期停留在理论层面。1986 年，反向传播算法（Backpropagation：BP）的提出，使其利用数学中的链式法则计算梯度，使多层感知机（MLP）实现有效训练，奠定了现代深度神经网络的基础，但是由于受限于硬件和算法，早期模型难以解决复杂任务，90 年代后神经网络研究陷入低谷。

第二次爆发：gpt 自然语言大模型
- 2015 年，由 Sam Altman 等人创立的 OpenAI 以非营利组织的形式成立，初衷是确保通用人工智能 (AGI) 的发展安全且对全人类有益。在语言模型方面，OpenAI 采用了 google 在 17 年提出的 Transformer 创新架构。Transformer 利用自注意力机制，能够并行处理输入序列中的所有词，大大提高了训练效率和模型性能。
- GPT 系列（2018-2024）：
  - GPT-1（2018）：
    基于 Transformer 解码器，首次采用无监督预训练+有监督微调策略，参数 1.17 亿。
  - GPT-2（2019）：
    参数增至 15 亿，提出“零样本学习”（Zero-Shot），验证模型规模与泛化能力的正相关。
  - GPT-3（2020）：
    参数达 1750 亿，引入“上下文学习”（In-Context Learning），通过 Few-Shot 提示解决多样化任务，标志大模型通用化。
  - GPT-4/4 o（2023-2024）：
    多模态支持（文本+图像+音频），引入强化学习与人类偏好对齐（RLHF），推理能力接近人类。
这种"规模化"策略证明了大型语言模型能够表现出令人惊讶的能力，包括上下文学习、任务泛化和涌现能力。

故事插曲：GPU 的关键作用与 NVIDIA 的崛起

大模型训练依赖海量计算力，传统 CPU 无法满足需求。GPU (图形处理单元) 凭借其并行计算能力，成为深度学习的理想硬件。单个现代 GPU 可以同时处理数千个线程，比 CPU 快数十到数百倍。

NVIDIA 公司的创始人黄仁勋有着传奇色彩的故事。他 1963 年生于台湾，后移民美国。NVIDIA 最初专注于为电脑游戏提供高质量的图形处理解决方案。有趣的是，NVIDIA 的 GPU 最初完全是为游戏和图形渲染设计的。2006-2007 年，研究人员发现 GPU 强大的并行计算能力可用于加速神经网络训练，NVIDIA 敏锐地捕捉到这一机会，开发了CUDA 编程平台，使开发者能更容易地利用 GPU 进行通用计算。随着深度学习的兴起，NVIDIA 从一家游戏图形公司转型为 AI 计算的基础设施提供商，成为全球最有价值的公司之一。

二、大模型基础知识（直接对话类）

去哪里使用大模型？

引子：推荐优先选择 GPT-4、Claude、DeepSeek 等头部模型，根据需求与场景选择国内外平台。

大模型大致可以分为国内国外两类：

一、国外平台

主流模型：
- ChatGPT（OpenAI）：通用性强、响应速度快，适合全能型任务（如报告撰写、数据分析）。
- Claude（Anthropic）：擅长进行文学创作，与代码编程。这是它的优势特点，很多编程插件首先选用 claude 模型。
访问方式：
- 需代理：国内用户需通过海外网络环境访问，gpt 官方大约 20 美元/月，claude 也是。
- 国内第三方代理，付费工具推荐
  - Sider（浏览器插件）：（ https://sider.ai/zh-CN ）支持多模型切换、文件解析、实时联网搜索，功能集成度高。【成本多少】
  - IMYAI 智能助手：（ https://super.imyai.top/c ）多模型聚合（含 GPT-4 o、Claude 3），支持上传 PDF/Excel 提问，ai 绘图。
  - 银行录像局（ https://nf.video/ ）：稳定访问 GPT/Claude，支持长对话与文件处理。
  - closeAI（ https://www.closeai-asia.com/ ）：一家专门提供 api 访问的公司，很稳定，按量付费

二、国内平台

（1）自研特色模型

豆包（字节跳动）：通用性好，做了很多关于 ai 赋能基础建设，例如 ai 代码开发（后面会讲），app 上支持 AI 电话（语气逼真），ai 耳机实时沟通等（硬件联动）（ https://www.doubao.com/chat/ ）。
通义千问（阿里巴巴）：开源生态完善（Qwen 系列）、本地部署友好（Ollama 平台长期霸榜），支持法律 AI 顾问（ https://tongyi.aliyun.com/ ），通义万象 2.1 视频模型。
Kimi（月之暗面）：【国产大模型最早出来的一批，ai 独角兽公司】200 万字长文本解析（如合同审查、论文总结），AI+PPT 自动生成（输入大纲即可输出完整幻灯片）（ https://kimi.moonshot.cn/ ）。
DeepSeek（深度求索）：低成本高智商模型（R 1 开源版性能比肩 GPT-4），官网访问易拥堵，推荐通过第三方平台调用（ https://www.deepseek.com/ ）。
阶跃 AI：多模态很不错，视频生成一致性好（ https://yuewen.cn/chats/new ）。

（2）综合集成平台

问小白（ https://www.wenxiaobai.com/chat/200006 ）：
- 实时调用满血版 DeepSeek，响应速度很快。
纳米搜索（360 出品， https://bot.n.cn/ ）：
- 支持多种国产模型切换（包含 DeepSeek）。
腾讯元宝：集成了 DeepSeek 模型（ https://yuanbao.tencent.com/chat/ ）。

示例应用（以"区块链"为例）：

直白释义：区块链是一种通过链式数据结构存储信息的分布式账本技术，核心特征是去中心化和不可篡改。
使用场景：①加密货币交易 ②供应链溯源 ③电子合同存证
举例说明：
• 例 1：比特币系统中，每笔交易通过哈希函数生成唯一标识（如 SHA-256 算法：H = Hash (Tx_Data)），多个交易按时间顺序连接成区块
• 例 2：类似全班同学共同记录收支的公共笔记本，任何人修改记录需获得半数以上同学同意，且修改痕迹会被永久保留
直观类比："区块链就像乐高积木，每个新积木块（区块）必须严丝合缝扣在前一块上，想偷偷拆掉中间某块？除非你拆掉整个后半段并让所有玩家都同意"
5.由来：xxxx
```
 
 【演示例子：什么是量子力学】
 
 【什么是信号处理中的谐波】
 
 【什么是热力学第二定律】
 
 
```
提升类提示词
在网络上有很多网友分享了自己的提示词，里面有他们自己的经验和思考，又很多通用的地方。
总结出了“一步步思考”这个方法，例如在自己的问题最下面加一个“step by step think”或者“一步步思考”给出答案，那么比直接提问的效果就稍微好一些。例如：
```
Take me deep breath and work on this problem step-by-step. 
Write your answer and give me a confidence score between 0-1 for your answer. Are you sure? 
This is very important to my career. 
You'd better be sure. 
用中文回答
```
还有，可以对问题本身进行提问，例如"对于这个问题 xxx，你怎么看？"让大模型帮你分析问题的解决方法。例如写文章的时候，先让大模型写大纲这些。
https://www.aishort.top/ ，这是一个专门写提示词的网站。
记得之前 think 版本的模型还没出来的时候，有一个厉害的高中生（涂津豪）写了让 claude 仿人类的思考的提示词，直接把 claude 的水平提高了一大截。ht
tps://github.com/richards199999/Thinking-Claude 这是那个提示词的 github，还有一个关于 claude 提示词的 github（ https://github.com/langgptai/awesome-claude-prompts ）
与大模型的聊天确实一定程度上训练了人精准提问的能力。
TopBook 的 b 站视频，也讲了写关于提问与使用上的方式【突破个人能力天花板，和 AI 协作的 12 个范式。】 https://www.bilibili.com/video/BV1pgmbY1EXX/?share_source=copy_web&vd_source=84d1208a0ce8dac7e5646fcc327301a5
上面的思考方法也叫思维链方法 COT，模仿人的思考是有一个一个步骤的（Chain-of-Thought, CoT）
自我验证（如“请检查上述答案是否有逻辑错误”）
四、大模型信息收集：联网模型的应用价值
在数字化工作环境中，高效获取和处理信息已成为核心竞争力。具备联网能力的大模型彻底改变了传统信息搜集方式，将"搜索"与"理解+整合"结合，大幅提升信息获取效率。
优势：实时信息获取，信息整合能力
工具推荐
Kimi、豆包、元宝、问小白、纳米搜索
1. Kimi Chat（最推荐）
实时性极佳，搜索结果全面，搜索的网页多【测试搜索今日新闻】
2.豆包
除了文字类信息搜索，有独家抖音生态接入，可以搜索到抖音视频
3.元宝/问小白/纳米搜索
这几个采用 deepseek+联网的模式，联网搜索效果也不错
使用场景
1.市场动态实时追踪（Kimi）：快速获取行业报告、政策更新、突发事件等时效性敏感信息
2.学术研究与文献综述引文查找（纳米搜索+Kimi）
```
这个月政府采购网发布了哪些采购的内容？
```
```
给我找出10片关于地波雷达的论文，帮我列出名字来，方便我引用。
```
五、大模型编程
开发工具
AI 的快速发展，也给开发者带来了便利。
基础的使用，就是让在对话式 ai 里，描述需求，帮我们写小的功能模块，或者查询资料。
【字符串正则匹配是一个很好用的例子】gadfgadfgaadf 发生的发 fsdf
进一步的推荐两个工具：
Trae，字节跳动对标国外 Cursor，实现自然语言对话一键生成代码，现阶段 gpt 和 claude 可免费调用
Vscode，微软开源的轻量 IDE，支持很多 AI 插件（提供了代码补全，优化，重构等），推荐 MarsCode 插件与 Cline 插件（cline 需要 api 但是可以实现与 Trae 一样的功能）
【帮我写一个 html 的登录界面，用 css 和 js 美化】
【一个 Trae 写的工具的例子：PDF 转图片】
【一些 Vscode 截图】
【阅读他人的项目代码，或者过去的代码，达到快速理解的目的，或者优化代码】
【代码提示，代码补全，代码注释】
六、大模型使用技巧
具体的使用案例
6.1 Mermaid 流程图
https://www.mermaidchart.com/
6.2 PlantUML 图（ https://plantuml.com/zh/ ）
6.3 图片转文字描述
可以直接把图片转为对应的图片描述
提示词：
```
帮我用结构化的语句把图片内容描述出来，要专业，即使看不见的图片的人听了，也知道这个图的详细内容
```
6.4文档类处理
1. 公式转换【图片转公式，公式复制到 word】：
https://www.latexlive.com/
2. 全文翻译
演示 2 种：
阿里的通义千问可以直接对整个 pdf 翻译
PDF 转图片，然后直接丢给大模型翻译
3. markdown 输出 word 文档
markdown，
一级标题
二级标题
演示
4.文档检视：错别字检查、术语校对、格式标准化
```
帮我检查下面文字中的错别字：
“今天天七真不错， 是个大晴天，适合出去删不！”
```
5. 大模型+Kimi：自动生成 PPT 大纲与内容
通义千问也有
https://tongyi.aliyun.com/aippt
6. 技术文档生成（从代码/描述生成完整文档）
文本润色（语法、术语、风格优化）
6.5 法律援助（通义千问）
网站链接： https://tongyi.aliyun.com/qianwen/agent/home?type=FindAgent


![image-20250311142059231](https://a.siyouyun.ren:30597/d/alist/webPic/image-20250311142059231.png?sign=si3lL4H8Hhe59q_pNtGOKGP_BJU2CrTfh2bGixPPlmY=:0)

## **七、大模型 API 调用与 RAG 知识库**

通过电脑上的客户端软件对大模型 api 调用，api 调用更加自由，可以自己开发自定义的程序。聊天更加流畅。推荐一个软件 CherryStudio。

https://cherry-ai.com/的官网 ，找到下载链接安装即可

下面为软件图片

![image-20250311104529188](https://a.siyouyun.ren:30597/d/alist/webPic/image-20250311104529188.png?sign=-B1CCU9WoNN_EelpAmynPby6QbwqqC45E0om5Gxc6pk=:0)

重点在于其可以调用本地知识库进行知识库问答，非常方便。

1. 获取 api，火山引擎或者硅基流动的 API，deepseek 的 api 也可以使用

2. 在软件中填写 api 密钥

3. 设置知识库，进行对话



## **八、隐私、安全与本地部署**
1. **隐私风险与应对**
    - 数据脱敏、企业合规要求

2. **本地大模型部署**

    - ![image-20250311150533355](https://a.siyouyun.ren:30597/d/alist/webPic/image-20250311150533355.png?sign=mJhoVKieqt-Rsk5MCVnG53_-qthj3iMdawNYCTWXTrw=:0)

    - **Ollama 教程**：模型下载、运行、微调（如 LLaMA 3 本地化）（ https://ollama.com/ ）
    - 硬件要求：CPU/GPU/NPU 性能优化

## **九、多模态生成**
1. **图片生成**

    - 豆包， https://www.doubao.com/chat/create-image

    - Midjourney/DALL·E 提示词设计

    - comfyui，真正要升入了解绘画，视频，就要了解这个工具

    - >ComfyUI 是一个开源的图形化界面工具，主要用于 Stable Diffusion 模型的图像生成工作流设计，其节点式可视化操作是最大特色，用户可以通过拖拽节点来精确控制图像生成的每个环节

2. **视频生成**

    - 短视频生成，（腾讯、阿里、跃问）
    - https://tongyi.aliyun.com/wanxiang/videoCreation , 通义万象 2.1
    - https://yuewen.cn/videos?utm_source=yuewen_nav&utm_medium=nav_link ，跃迁

3. **声音合成**

    - 语音克隆（工具：ElevenLabs、Azure TTS，ChatTTS）
    - https://www.chattts.co/zh#free

## **十、资源与社区**
1. **外部资料整合**
    - 李燕姐提供的 PDF 文档
    
      - ![image-20250311113121770](https://a.siyouyun.ren:30597/d/alist/webPic/image-20250311113121770.png?sign=bL1YYzUVKqSjKDFfunBtrL7HBTlK4WG8ghnnw__C9Bg=:0)
    
    - [金子的AI知识库](https://tffyvtlai4.feishu.cn/wiki/OhQ8wqntFihcI1kWVDlcNdpznFf)（工具与案例库）
    
    - [七小姐的提示词博物馆](https://vxc3hj17dym.feishu.cn/wiki/VDb1wMKDNiNj0mkJn6VcFgRenVc)（模板库）（可以吹一波飞书文档）
    
    - 豆包： https://www.doubao.com/chat/
    
      kimi： https://kimi.moonshot.cn/chat/
    
      问小白： https://www.wenxiaobai.com/
    
      纳米 AI： https://bot.n.cn/
    
      closeAI（api 类）： https://www.closeai-asia.com/
    
      火山引擎（api 类）： https://www.volcengine.com/
    
      硅基流动（api 类）： https://cloud.siliconflow.cn/
    
      IMYAI-GPT: https://new.imyai.top/ ; https://super.imyai.top/chat
    
      cherryStudio（客户端）： https://cherry-ai.com/
    
      chatBox（客户端）： https://chatboxai.app/zh
    
      trae（编程 IDE）： https://traeide.com/或https://www.trae.ai/home
    
    - ![image-20250311112531111](https://a.siyouyun.ren:30597/d/alist/webPic/image-20250311112531111.png?sign=6sS8wMskQsOFR5x1TzVSj4i7grzMeaqG1ENCcfm1n4w=:0)
    
2. **提示词社区构建**
   
    - 提示词版本管理（GitHub 仓库或飞书多维表格）
    - 开源社区平台
      - Hugging Face、ModelScope（ https://www.modelscope.cn/my/overview ），GitHub 等，ollama（国外）
    
    

#### **十一、硬件性能与优化**
在大模型推动各行业变革的当下，2025 年随着技术趋势演进与行业实践深入，下面简单了解其算力部署指南，包括硬件角色、选择策略、模型硬件匹配及微调技术等。 

#### 一、CPU/GPU/NPU 在大模型中的角色对比
1. **训练场景：GPU 主导，NPU 局部突破**
    - **GPU**（如 NVIDIA H 100/A 100）
      - **核心优势**：并行计算能力极强，支持大规模矩阵运算，适配 Transformer 架构的密集计算需求。
      - **典型应用**：千亿参数模型训练（如 GPT - 5、DeepSeek 671 B），需多卡并行（如 8 卡 H 100 集群）。
    - **NPU**（如华为昇腾 910 B、寒武纪 MLU）
      - **适用场景**：端侧/边缘设备轻量级训练（如 10 B 以下模型），能效比优于 GPU，适配智能驾驶、安防等低功耗场景。
2. **推理场景：GPU 主流，NPU 边缘端崛起**
    - **GPU**
      - **优势**：显存带宽高（如 H 100 的 3.35 TB/s），支持多任务并发推理（如同时处理文本生成+图像识别）。
      - **主流配置**：单卡显存≥24 GB（如 A 100 80 GB），适配 70 B 参数模型 FP 16 推理。
    - **NPU**
      - **突破点**：专为 AI 优化，单卡算力达 128 TOPS（如酷芯 NPU），在智能摄像头、手机端大模型（如 3 B 参数）部署中成本优势显著。
3. **CPU 的补充角色**
    - **功能**：数据预处理、任务调度、小模型推理（如 1.5 B 参数模型纯 CPU 运行）。
    - **优化方向**：英特尔至强 Sapphire Rapids 内置 AMX 加速器，推理性能提升 10 倍，适配金融风控等低延迟场景。

#### 二、主流硬件选择：GPU+大内存/显存成标配
1. **GPU 仍是算力核心**
    - **国际厂商**：NVIDIA H 100（FP 8 精度性能翻倍）、AMD MI 300 X（192 GB 显存支持超大规模推理）。
    - **国产替代**：华为昇腾 910 B（适配 DeepSeek R 1）、寒武纪 MLU（互联网大厂测试性能比肩 A 100）。
2. **内存/显存规格要求**
    - **训练端**：千亿级模型：显存≥640 GB（8 卡 H 100 集群） + DDR 5 内存≥2 TB。
    - **推理端**：
      - 7 B 参数模型：FP 16 需 16 - 20 GB 显存，INT 4 量化后仅需 8 GB（如 NVIDIA RTX 4090）。
      - 70 B 参数模型：需多卡并行（如 2×A 100 80 GB）或单卡优化（MI 300 X）。

#### 三、典型推理场景的模型与硬件匹配
| 场景分级       | 模型参数量 | 硬件配置                             | 典型案例                   |
| 
# Thank you Listening

所有资料放在了这个网盘，可以下载： https://a.siyouyun.ren:30597/AI_Share