前言:前段时间写了个关于 ai 使用小结分享下, 创建时间 2025-03-21 22:00
目录
一、大模型的背景与来历:从神经网络到现代大语言模型
二、基础平台
三、对话:提问与提示词技巧
四、信息搜集
五、AI 编程
六、使用技巧
七、API 调用与知识库
八、本地大模型部署
九、多模态生成
十、资源与社区
十一、硬件性能与优化
- 连接主义的萌芽(1940 s-1980 s) 神经网络的概念源于 1943 年神经生理学家 Warren McCulloch 和数学家 Walter Pitts 提出了第一个数学神经网络模型提出的“M-P 神经元模型”,但受限于算力和数据,长期停留在理论层面。1986 年,反向传播算法(Backpropagation:BP)的提出,使其利用数学中的链式法则计算梯度,使多层感知机(MLP)实现有效训练,奠定了现代深度神经网络的基础,但是由于受限于硬件和算法,早期模型难以解决复杂任务,90 年代后神经网络研究陷入低谷。
第二次爆发:gpt 自然语言大模型
- 2015 年,由 Sam Altman 等人创立的 OpenAI 以非营利组织的形式成立,初衷是确保通用人工智能 (AGI) 的发展安全且对全人类有益。在语言模型方面,OpenAI 采用了 google 在 17 年提出的 Transformer 创新架构。Transformer 利用自注意力机制,能够并行处理输入序列中的所有词,大大提高了训练效率和模型性能。
GPT 系列(2018-2024):
- GPT-1(2018):
基于 Transformer 解码器,首次采用无监督预训练+有监督微调策略,参数 1.17 亿。 - GPT-2(2019):
参数增至 15 亿,提出“零样本学习”(Zero-Shot),验证模型规模与泛化能力的正相关。 - GPT-3(2020):
参数达 1750 亿,引入“上下文学习”(In-Context Learning),通过 Few-Shot 提示解决多样化任务,标志大模型通用化。 - GPT-4/4 o(2023-2024):
多模态支持(文本+图像+音频),引入强化学习与人类偏好对齐(RLHF),推理能力接近人类。
- GPT-1(2018):
这种"规模化"策略证明了大型语言模型能够表现出令人惊讶的能力,包括上下文学习、任务泛化和涌现能力。
故事插曲:GPU 的关键作用与 NVIDIA 的崛起
大模型训练依赖海量计算力,传统 CPU 无法满足需求。GPU (图形处理单元) 凭借其并行计算能力,成为深度学习的理想硬件。单个现代 GPU 可以同时处理数千个线程,比 CPU 快数十到数百倍。
NVIDIA 公司的创始人黄仁勋有着传奇色彩的故事。他 1963 年生于台湾,后移民美国。NVIDIA 最初专注于为电脑游戏提供高质量的图形处理解决方案。有趣的是,NVIDIA 的 GPU 最初完全是为游戏和图形渲染设计的。2006-2007 年,研究人员发现 GPU 强大的并行计算能力可用于加速神经网络训练,NVIDIA 敏锐地捕捉到这一机会,开发了CUDA 编程平台,使开发者能更容易地利用 GPU 进行通用计算。随着深度学习的兴起,NVIDIA 从一家游戏图形公司转型为 AI 计算的基础设施提供商,成为全球最有价值的公司之一。
二、大模型基础知识(直接对话类)
去哪里使用大模型?
引子:推荐优先选择 GPT-4、Claude、DeepSeek 等头部模型,根据需求与场景选择国内外平台。
大模型大致可以分为国内国外两类:
一、国外平台
主流模型:
- ChatGPT(OpenAI):通用性强、响应速度快,适合全能型任务(如报告撰写、数据分析)。
- Claude(Anthropic):擅长进行文学创作,与代码编程。这是它的优势特点,很多编程插件首先选用 claude 模型。
访问方式:
- 需代理:国内用户需通过海外网络环境访问,gpt 官方大约 20 美元/月,claude 也是。
国内第三方代理,付费工具推荐
Sider(浏览器插件):( https://sider.ai/zh-CN )支持多模型切换、文件解析、实时联网搜索,功能集成度高。【成本多少】
- IMYAI 智能助手:( https://super.imyai.top/c )多模型聚合(含 GPT-4 o、Claude 3),支持上传 PDF/Excel 提问,ai 绘图。
- 银行录像局( https://nf.video/ ):稳定访问 GPT/Claude,支持长对话与文件处理。
- closeAI( https://www.closeai-asia.com/ ):一家专门提供 api 访问的公司,很稳定,按量付费
二、国内平台
(1)自研特色模型
豆包(字节跳动):通用性好,做了很多关于 ai 赋能基础建设,例如 ai 代码开发(后面会讲),app 上支持 AI 电话(语气逼真),ai 耳机实时沟通等(硬件联动)( https://www.doubao.com/chat/ )。
通义千问(阿里巴巴):开源生态完善(Qwen 系列)、本地部署友好(Ollama 平台长期霸榜),支持法律 AI 顾问( https://tongyi.aliyun.com/ ),通义万象 2.1 视频模型。
Kimi(月之暗面):【国产大模型最早出来的一批,ai 独角兽公司】200 万字长文本解析(如合同审查、论文总结),AI+PPT 自动生成(输入大纲即可输出完整幻灯片)( https://kimi.moonshot.cn/ )。
DeepSeek(深度求索):低成本高智商模型(R 1 开源版性能比肩 GPT-4),官网访问易拥堵,推荐通过第三方平台调用( https://www.deepseek.com/ )。
阶跃 AI:多模态很不错,视频生成一致性好( https://yuewen.cn/chats/new )。
(2)综合集成平台
问小白( https://www.wenxiaobai.com/chat/200006 ):
- 实时调用满血版 DeepSeek,响应速度很快。
纳米搜索(360 出品, https://bot.n.cn/ ):
- 支持多种国产模型切换(包含 DeepSeek)。
- 腾讯元宝:集成了 DeepSeek 模型( https://yuanbao.tencent.com/chat/ )。
示例应用(以"区块链"为例):
- 直白释义:区块链是一种通过链式数据结构存储信息的分布式账本技术,核心特征是去中心化和不可篡改。
- 使用场景:①加密货币交易 ②供应链溯源 ③电子合同存证
- 举例说明:
• 例 1:比特币系统中,每笔交易通过哈希函数生成唯一标识(如 SHA-256 算法:H = Hash (Tx_Data)),多个交易按时间顺序连接成区块
• 例 2:类似全班同学共同记录收支的公共笔记本,任何人修改记录需获得半数以上同学同意,且修改痕迹会被永久保留 直观类比:"区块链就像乐高积木,每个新积木块(区块)必须严丝合缝扣在前一块上,想偷偷拆掉中间某块?除非你拆掉整个后半段并让所有玩家都同意"
5.由来:xxxx【演示例子:什么是量子力学】 【什么是信号处理中的谐波】 【什么是热力学第二定律】
提升类提示词
在网络上有很多网友分享了自己的提示词,里面有他们自己的经验和思考,又很多通用的地方。
总结出了“一步步思考”这个方法,例如在自己的问题最下面加一个“step by step think”或者“一步步思考”给出答案,那么比直接提问的效果就稍微好一些。例如:
Take me deep breath and work on this problem step-by-step. Write your answer and give me a confidence score between 0-1 for your answer. Are you sure? This is very important to my career. You'd better be sure. 用中文回答
还有,可以对问题本身进行提问,例如"对于这个问题 xxx,你怎么看?"让大模型帮你分析问题的解决方法。例如写文章的时候,先让大模型写大纲这些。
https://www.aishort.top/ ,这是一个专门写提示词的网站。
记得之前 think 版本的模型还没出来的时候,有一个厉害的高中生(涂津豪)写了让 claude 仿人类的思考的提示词,直接把 claude 的水平提高了一大截。
ht
tps://github.com/richards199999/Thinking-Claude
这是那个提示词的 github,还有一个关于 claude 提示词的 github( https://github.com/langgptai/awesome-claude-prompts )与大模型的聊天确实一定程度上训练了人精准提问的能力。
TopBook 的 b 站视频,也讲了写关于提问与使用上的方式【突破个人能力天花板,和 AI 协作的 12 个范式。】 https://www.bilibili.com/video/BV1pgmbY1EXX/?share_source=copy_web&vd_source=84d1208a0ce8dac7e5646fcc327301a5
- 上面的思考方法也叫思维链方法 COT,模仿人的思考是有一个一个步骤的(Chain-of-Thought, CoT)
自我验证(如“请检查上述答案是否有逻辑错误”)
四、大模型信息收集:联网模型的应用价值
在数字化工作环境中,高效获取和处理信息已成为核心竞争力。具备联网能力的大模型彻底改变了传统信息搜集方式,将"搜索"与"理解+整合"结合,大幅提升信息获取效率。
优势:实时信息获取,信息整合能力
工具推荐
Kimi、豆包、元宝、问小白、纳米搜索
1. Kimi Chat(最推荐)
实时性极佳,搜索结果全面,搜索的网页多【测试搜索今日新闻】
2.豆包
除了文字类信息搜索,有独家抖音生态接入,可以搜索到抖音视频
3.元宝/问小白/纳米搜索
这几个采用 deepseek+联网的模式,联网搜索效果也不错
使用场景
1.市场动态实时追踪(Kimi):快速获取行业报告、政策更新、突发事件等时效性敏感信息
2.学术研究与文献综述引文查找(纳米搜索+Kimi)
这个月政府采购网发布了哪些采购的内容?
给我找出10片关于地波雷达的论文,帮我列出名字来,方便我引用。
五、大模型编程
开发工具
AI 的快速发展,也给开发者带来了便利。
基础的使用,就是让在对话式 ai 里,描述需求,帮我们写小的功能模块,或者查询资料。
【字符串正则匹配是一个很好用的例子】gadfgadfgaadf 发生的发 fsdf
进一步的推荐两个工具:
- Trae,字节跳动对标国外 Cursor,实现自然语言对话一键生成代码,现阶段 gpt 和 claude 可免费调用
Vscode,微软开源的轻量 IDE,支持很多 AI 插件(提供了代码补全,优化,重构等),推荐 MarsCode 插件与 Cline 插件(cline 需要 api 但是可以实现与 Trae 一样的功能)
【帮我写一个 html 的登录界面,用 css 和 js 美化】
【一个 Trae 写的工具的例子:PDF 转图片】
【一些 Vscode 截图】
【阅读他人的项目代码,或者过去的代码,达到快速理解的目的,或者优化代码】
【代码提示,代码补全,代码注释】
六、大模型使用技巧
具体的使用案例
6.1 Mermaid 流程图
6.2 PlantUML 图( https://plantuml.com/zh/ )
6.3 图片转文字描述
可以直接把图片转为对应的图片描述
提示词:
帮我用结构化的语句把图片内容描述出来,要专业,即使看不见的图片的人听了,也知道这个图的详细内容
6.4文档类处理
1. 公式转换【图片转公式,公式复制到 word】:
2. 全文翻译
演示 2 种:
- 阿里的通义千问可以直接对整个 pdf 翻译
PDF 转图片,然后直接丢给大模型翻译
3. markdown 输出 word 文档
markdown,
一级标题
二级标题
演示
4.文档检视:错别字检查、术语校对、格式标准化
帮我检查下面文字中的错别字: “今天天七真不错, 是个大晴天,适合出去删不!”
5. 大模型+Kimi:自动生成 PPT 大纲与内容
通义千问也有
https://tongyi.aliyun.com/aippt
6. 技术文档生成(从代码/描述生成完整文档)
文本润色(语法、术语、风格优化)
6.5 法律援助(通义千问)
网站链接: https://tongyi.aliyun.com/qianwen/agent/home?type=FindAgent

## **七、大模型 API 调用与 RAG 知识库**
通过电脑上的客户端软件对大模型 api 调用,api 调用更加自由,可以自己开发自定义的程序。聊天更加流畅。推荐一个软件 CherryStudio。
https://cherry-ai.com/的官网 ,找到下载链接安装即可
下面为软件图片

重点在于其可以调用本地知识库进行知识库问答,非常方便。
1. 获取 api,火山引擎或者硅基流动的 API,deepseek 的 api 也可以使用
2. 在软件中填写 api 密钥
3. 设置知识库,进行对话
## **八、隐私、安全与本地部署**
1. **隐私风险与应对**
- 数据脱敏、企业合规要求
2. **本地大模型部署**
- 
- **Ollama 教程**:模型下载、运行、微调(如 LLaMA 3 本地化)( https://ollama.com/ )
- 硬件要求:CPU/GPU/NPU 性能优化
## **九、多模态生成**
1. **图片生成**
- 豆包, https://www.doubao.com/chat/create-image
- Midjourney/DALL·E 提示词设计
- comfyui,真正要升入了解绘画,视频,就要了解这个工具
- >ComfyUI 是一个开源的图形化界面工具,主要用于 Stable Diffusion 模型的图像生成工作流设计,其节点式可视化操作是最大特色,用户可以通过拖拽节点来精确控制图像生成的每个环节
2. **视频生成**
- 短视频生成,(腾讯、阿里、跃问)
- https://tongyi.aliyun.com/wanxiang/videoCreation , 通义万象 2.1
- https://yuewen.cn/videos?utm_source=yuewen_nav&utm_medium=nav_link ,跃迁
3. **声音合成**
- 语音克隆(工具:ElevenLabs、Azure TTS,ChatTTS)
- https://www.chattts.co/zh#free
## **十、资源与社区**
1. **外部资料整合**
- 李燕姐提供的 PDF 文档
- 
- [金子的AI知识库](https://tffyvtlai4.feishu.cn/wiki/OhQ8wqntFihcI1kWVDlcNdpznFf)(工具与案例库)
- [七小姐的提示词博物馆](https://vxc3hj17dym.feishu.cn/wiki/VDb1wMKDNiNj0mkJn6VcFgRenVc)(模板库)(可以吹一波飞书文档)
- 豆包: https://www.doubao.com/chat/
kimi: https://kimi.moonshot.cn/chat/
问小白: https://www.wenxiaobai.com/
纳米 AI: https://bot.n.cn/
closeAI(api 类): https://www.closeai-asia.com/
火山引擎(api 类): https://www.volcengine.com/
硅基流动(api 类): https://cloud.siliconflow.cn/
IMYAI-GPT: https://new.imyai.top/ ; https://super.imyai.top/chat
cherryStudio(客户端): https://cherry-ai.com/
chatBox(客户端): https://chatboxai.app/zh
trae(编程 IDE): https://traeide.com/或https://www.trae.ai/home
- 
2. **提示词社区构建**
- 提示词版本管理(GitHub 仓库或飞书多维表格)
- 开源社区平台
- Hugging Face、ModelScope( https://www.modelscope.cn/my/overview ),GitHub 等,ollama(国外)
#### **十一、硬件性能与优化**
在大模型推动各行业变革的当下,2025 年随着技术趋势演进与行业实践深入,下面简单了解其算力部署指南,包括硬件角色、选择策略、模型硬件匹配及微调技术等。
#### 一、CPU/GPU/NPU 在大模型中的角色对比
1. **训练场景:GPU 主导,NPU 局部突破**
- **GPU**(如 NVIDIA H 100/A 100)
- **核心优势**:并行计算能力极强,支持大规模矩阵运算,适配 Transformer 架构的密集计算需求。
- **典型应用**:千亿参数模型训练(如 GPT - 5、DeepSeek 671 B),需多卡并行(如 8 卡 H 100 集群)。
- **NPU**(如华为昇腾 910 B、寒武纪 MLU)
- **适用场景**:端侧/边缘设备轻量级训练(如 10 B 以下模型),能效比优于 GPU,适配智能驾驶、安防等低功耗场景。
2. **推理场景:GPU 主流,NPU 边缘端崛起**
- **GPU**
- **优势**:显存带宽高(如 H 100 的 3.35 TB/s),支持多任务并发推理(如同时处理文本生成+图像识别)。
- **主流配置**:单卡显存≥24 GB(如 A 100 80 GB),适配 70 B 参数模型 FP 16 推理。
- **NPU**
- **突破点**:专为 AI 优化,单卡算力达 128 TOPS(如酷芯 NPU),在智能摄像头、手机端大模型(如 3 B 参数)部署中成本优势显著。
3. **CPU 的补充角色**
- **功能**:数据预处理、任务调度、小模型推理(如 1.5 B 参数模型纯 CPU 运行)。
- **优化方向**:英特尔至强 Sapphire Rapids 内置 AMX 加速器,推理性能提升 10 倍,适配金融风控等低延迟场景。
#### 二、主流硬件选择:GPU+大内存/显存成标配
1. **GPU 仍是算力核心**
- **国际厂商**:NVIDIA H 100(FP 8 精度性能翻倍)、AMD MI 300 X(192 GB 显存支持超大规模推理)。
- **国产替代**:华为昇腾 910 B(适配 DeepSeek R 1)、寒武纪 MLU(互联网大厂测试性能比肩 A 100)。
2. **内存/显存规格要求**
- **训练端**:千亿级模型:显存≥640 GB(8 卡 H 100 集群) + DDR 5 内存≥2 TB。
- **推理端**:
- 7 B 参数模型:FP 16 需 16 - 20 GB 显存,INT 4 量化后仅需 8 GB(如 NVIDIA RTX 4090)。
- 70 B 参数模型:需多卡并行(如 2×A 100 80 GB)或单卡优化(MI 300 X)。
#### 三、典型推理场景的模型与硬件匹配
| 场景分级 | 模型参数量 | 硬件配置 | 典型案例 |
|
# Thank you Listening
所有资料放在了这个网盘,可以下载: https://a.siyouyun.ren:30597/AI_Share