环球微动态丨AI行业专题:AI+应用走向落地 私有数据和向量数据受益

2023-05-08 17:26:33 来源:西部证券股份有限公司


【资料图】

应用中添加ChatGPT 等生成式AI 将成为行业发展的关键点。1)目前随着OpenAI 推出的ChatGPT 3.5 以及4.0 的应用,大大促进了AIGC 行业的发展,我国国内各公司也开始争相设计与发布属于自己的生成式AI 大模型,未来在AIGC时代下,各类产品应用中添加ChatGPT 等生成式AI 将成为行业发展的关键点。

2)目前生成式AI 的训练原理,以 ChatGPT 为例,假设我们的输入提示为Prompt (假设为“我爱你,我的祖国”,则这段文字首先会被转化成一系列 Token,然后 Token 再被送入大语言模型(神经网络模型)中,得到输出 Token,输出Token 再重新被映射成文字,最终完成输入文字和输出文字对应的结果。

行业知识学习具有3 种常见方法。1)Fine-tuning 微调适合数据集较小的情况。

微调(finetune)是深度学习领域一个很常用的操作,就是模型的再次训练。是指在预先训练好的模型基础之上使用特定的数据集进行微调。可以将新的数据集加入到预先训练好的模型中,用新的数据集重新训练模型,以提高模型在特定任务上的表现。通过 finetune 可以小幅度改变大模型的参数,使大模型聚焦于特定场景的知识(即私有数据知识)。2)retrieve-then-generate 先嵌入Embeddings搜索-再Pormpt+数据+问题输入ChatGPT 生成。简版工作流:chunk -> index ->

retrieve 搜索 -> construct input -> LLM 生成。3)基于检索的提示补充来增强结果准确性。GPT 系列的大语言模型都有一个共同的原理,是基于上下文学习(Context Learning)能力进行训练和结果生成。因为历史的数据表示,我“疼”

了就会“生病”,所以模型通过数据抽象总结出了这个因果关系,并根据“脚疼”

推理出“生病”。当数据足够多、足够丰富,模型能够预测的结果也就越丰富,越随机。上下文学习中输入被称为提示(Prompt),提示越准确、包含的信息越多,模型所能准确推理出更准确的结果。4)ChatGPT+向量数据库+提示打破知识库有限的限制。由于其知识库有限而受到限制,有时当被问及不熟悉的话题时,会产生幻觉的答案。引入新的AI 堆栈,ChatGPT+向量数据库+提示即代码,或CVP 堆栈,以克服这个约束。 ChatGPT 非常擅长回答自然语言查询,当与链接用户的查询和检索到的文本的提示符相结合时,ChatGPT 将生成一个相关的和准确的响应。这种方法可以减轻ChatGPT 提供的“幻觉答案”。

投资建议:AI+应用:明确提出私有数据应用:推荐:福昕软件、捷安高科、金山办公,建议关注:万兴科技;向量数据库:建议关注:星环科技、拓尔思。

风险提示:AI 技术发展不及预期;应用端需求不及预期。

标签:

推荐阅读>