摘要:在数字化时代,人工智能的普及程度在全球范围内正不断提升。AI可以代替人类做大量的基础工作,节省时间和精力,只需输入文字和要求,即可从编辑者转变为审核者,
在数字化时代,人工智能的普及程度在全球范围内正不断提升。AI可以代替人类做大量的基础工作,节省时间和精力,只需输入文字和要求,即可从编辑者转变为审核者,
在繁杂的法律工作中,法律工作者每天面对大量的文字,这时,希望借助AI工具帮助处理部分工作是十分合理的需求,但由于法律职业的特殊性,在使用AI之前需要考虑的最重要的问题就是:信息的隐私是否能够得到保护?通过AI处理的工作内容是否会泄漏?而一般的AI模型需要通过联网获取知识信息来回答问题、进行创作,使用网页版满血的DeepSeek固然是不错的选择,但就法律工作的特殊性而言,必须寻找能够兼具绝对的隐私保护和个性化知识库构建的AI模型才能够放心地为我所用,想要使用DeepSeek提高工作效率却又担心隐私保护问题,本地化部署是绝佳方案,将部署的本地化模型进行法律专业化的训练与微调,以期能够得到兼顾数据安全与律师效率的自用模型。
以下将以macOS系统、1.5b版本为例,带来超详细的DeepSeek本地化部署教程,用Ollama——用于在本地运行大型语言模型的工具,方便用户在本地设备上部署和使用模型,实现隐私保护与个人数据库。
Ollama网址:https://ollama.com/
第一步:输入网址,打开Ollama的网页。
第二步:1. 点击“Download”按钮。2. 选择适用于macOS、Linux和Windows三个不同操作系统的版本,点击屏幕中央黑色按钮下载。
第三步:下载完成后,1. 点击“Next”按钮,继续下一步。2. 点击“Install”按钮,进行安装。3. 点击“Finish”按钮,完成安装。
第四步:安装完成后,macOS系统搜索“终端”、Windows系统搜索“cmd“,找到控制台。
第五步:打开控制台界面。
第六步:1.返回Ollama官网,点击左上角第三个“Models”进入模型选择。2.点击“deepseek-r1”,进入该模型的模块。
第七步:进入后,可根据自身电脑配置及需求,选择想要下载的模型版本。根据所选模型版本复制红色方框中的代码。
第八步:1. 回到控制台界面,粘贴上一步骤中复制的代码。2. 粘贴后按下回车键,等待下载。3. 等待出现倒数第二行“success”字样时即表示部署已经完成。
第九步:输入问题指令,按下回车键。
到第九步结束,DeepSeek的本地化部署就已经完成了,后续的窗口美化部分这里就不再继续教程。整个部署的流程并不困难,只是较为繁琐,并且需要搭配自身电脑的系统进行不统一的细节操作,如上文中第四步、第五步macOS系统与Windows系统就不完全相同。
本地化部署的难度虽然相对容易,但低版本的部署结果差强人意,1.5b的部署测试结果较为可笑。
在本地部署如本次测试中使用的DeepSeek 1.5b版本,我们可以发现,建立在低版本的互动对于工作效率的提高不仅完全没有帮助,问问题也十分费劲,虽然存在思考,但是仍是一个笨蛋的状态。
同时,需要注意的是,2025年3月3日,国家网络安全中心通报,开源大模型部署工具Ollama存在未授权访问和模型窃取等多项安全隐患。
其中提到的11434端口在常见的网络应用端口中并不属于被广泛熟知和标准化的特定服务端口,没有一个固定的、被普遍认可的单一用途。如果在网络连接或系统监控中发现11434端口有异常活动,需要结合具体的系统环境和应用程序来分析,可能是正常的业务通信,也可能是恶意软件或未经授权的访问尝试利用了该端口。
需要或者想要使用Ollama在本地部署DeepSeek,需要对该风险知晓并做防范措施。
精度
在部署DeepSeek时,选择适当的数值精度至关重要。不同的精度级别直接影响系统的性能、内存使用和计算效率。常见的数值精度有:半精度(16位)、单精度(32位)、双精度(64位)、四精度(128位)、定点数(可变精度)、多精度(可根据需求动态设置)。
半精度浮动点数使用16位(2字节)进行数值表示。这意味着它在计算和存储上相较于其他精度级别具有明显优势。半精度适合资源受限的设备或高性能计算任务,尤其在DeepSeek的深度学习模型训练和推理过程中,使用半精度可以显著减少内存带宽需求并加速计算速度。通过牺牲部分精度,半精度可以在保证较高计算效率的同时,满足大部分搜索任务的准确性需求。
单精度浮动点数使用32位(4字节)来表示数值,提供了相较于半精度更高的精度和更广泛的表示范围。对于大多数DeepSeek的本地化部署任务,单精度是较为理想的选择。它能够在精度和计算效率之间提供平衡。特别是在需要一定准确度的自然语言处理和文本匹配任务中,单精度能够满足大多数应用的需求。对于大多数法律技术工具,单精度可能足够满足日常需求,特别是在一些常见的文书自动化和合同分析任务中。它能够在较短时间内处理大量数据,同时提供足够的准确性,适合合同管理、法律文档搜索等应用。例如,利用单精度的自然语言处理技术(NLP),法律AI可以进行文书的自动标注、法律术语的提取等任务。
在处理较为复杂的法律数据分析任务时,双精度可能是更合适的选择。特别是在涉及复杂的财务数据计算、法律统计分析或者长期合同的风险评估时,双精度可以确保更高的准确性。双精度浮动点数使用64位(8字节)进行数值表示,具有更高的精度和更大的表示范围,适用于需要极高数值精度的计算任务。双精度通常用于需要非常高精度的场景,比如处理高度复杂的查询、长文本匹配或者涉及精细的语义理解任务。对于一些高要求领域的应用,双精度能够确保计算的准确性。例如在跨国交易、国际投资和并购案的财务合规性审查中,使用双精度的计算可以确保金融数据和法务审计过程的高精度计算,避免因计算误差而产生潜在的法律风险。
四精度使用128位(16字节)来表示数值,提供了极高的精度,适用于一些对精度要求极高的任务,但在DeepSeek的大多数常见部署中,四精度通常不必要,除非是处理非常复杂的计算问题或者涉及到高度精细的算法优化。
在DeepSeek的本地化部署中,选择合适的精度取决于具体的硬件资源、应用需求以及计算任务的复杂性。如果需要高效的计算并且能接受一定的精度损失,半精度是理想的选择;如果追求平衡,单精度通常是最佳选择;在需要极高精度的场景下,双精度和四精度可以确保计算的准确性。根据硬件支持和应用需求合理选择精度,能够提高系统的效率和响应能力,了解并选择合适的精度,可以帮助到法律从业者在处理复杂数据和法律任务时更高效地确保结果的准确性,但很遗憾的是本次本地化部署中没有出现可以选择精度的选项。
版本&成本
在本地部署DeepSeek,选择合适的模型版本非常重要。以1.5b版本为例,它适用于一般配置的个人笔记本电脑进行部署,然而,由于该版本的模型参数较少,无法充分发挥其应有的性能,部署后的实际效果较为有限,难以满足实际使用标准,更难与DeepSeek R1满血版相媲美。
对于普通的家用电脑,最多能够部署8b版本。若要部署70b以上的大型模型,则需要专门配置的服务器。DeepSeek R1满血版模型的尺寸更为庞大,达到671b,其正常部署至少需要1200GB的显存。即便使用半精度(half precision)运行,也至少需要490GB的显存,且需要配备八卡A100服务器才能顺利运行。这样的硬件配置成本通常至少需要数百万人民币。
不过,我们近期了解到清华大学团队提出的 KTransformers技术,为大模型的本地化部署提供了一个创新解决方案。通过深入挖掘硬件性能,并充分利用 CPU和GPU协同工作,KTransformers技术能够大幅降低显存的需求。借助这一技术,DeepSeek R1满血版模型只需一张RTX 4090显卡即可运行,且硬件成本可降低至不到五万元。
KTransformers技术的关键在于将部分模型权重加载到内存中,部分计算任务由CPU执行,从而有效减轻GPU 的负担,最终仅需14GB显存和382GB内存即可运行 DeepSeek R1 Q4_K_M模型。尽管这一技术在降低硬件成本方面具有显著优势,但由于需要深入挖掘硬件性能,部署和使用过程涉及大量底层操作,项目的部署难度较大,门槛也相对较高。
并发
本地化部署DeepSeek时,如果需要支持多人同时提问(并发),尤其是团队级别的高并发使用,对显卡的要求会显著提高。这主要涉及几个关键因素:
1. 并发处理对显存的影响
DeepSeek作为大语言模型,运行时需要将模型权重加载到显存中,同时处理输入输出。如果是单用户使用,显存只需要容纳一个会话的计算需求。但当多名用户同时向模型提问时,系统需要为每个会话分配独立的计算资源,这意味着显存占用会快速增长。例如,如果单次推理占用 20GB显存,那么10个并发请求可能需要200GB以上的显存。
高显存显卡(如A100 80GB、H100 120GB)或多卡并行是应对这种情况的关键。如果显存不足,系统可能会出现响应延迟,甚至崩溃。
2. 计算负载与推理速度
多用户并发会导致计算任务的堆积,直接影响推理速度。如果显卡计算能力不足,模型处理每个请求的时间会变长,导致用户需要更久才能获得回复。
为了解决这个问题,通常会采用多GPU并行计算(Multi-GPU),如使用4卡或8卡A100服务器,让多个 GPU协同处理多个请求。此外,也可以结合TensorRT、DeepSpeed或vLLM等推理优化工具,提高处理效率,减少单个请求的计算开销。
3. 团队级部署的解决方案
如果是小型团队(5-10人)使用,RTX 4090 24GB或 A6000 48GB可能勉强够用,但需要降低并发数,并优化请求队列。如果是大型团队(几十人甚至上百人)并发使用,单卡4090显然无法满足需求,必须采用多卡服务器,比如8卡A100(640GB显存)或H100集群,以确保流畅运行。
对于一些预算有限但希望支持多人使用的团队,可以考虑KTransformers技术,利用CPU+GPU协同计算的方式,在降低GPU负载的同时,提升高并发场景下的可用性。
4. 平衡显卡需求与成本
显卡的选择需要根据实际并发量权衡。如果只是个人或小团队使用,可以选择单卡高显存显卡(如RTX4090或 A6000)。但如果是大规模团队并发,比如法律、金融、科研机构等多个用户同时查询大模型,高端多卡服务器是必须的,否则响应速度和模型稳定性都会受到影响。
总而言之,在本地化部署DeepSeek时,如果需要支持多人并发使用,显卡的显存大小、计算能力以及优化策略都至关重要。单人或小规模使用时,高显存单卡(如RTX 4090、A6000)可能勉强够用,但如果是团队级甚至企业级高并发场景,就需要多GPU服务器(如8卡A100、H100集群)来保证流畅运行。
此外,优化推理策略(如使用TensorRT、DeepSpeed、vLLM)以及结合KTransformers技术(CPU+GPU协同计算)可以在一定程度上降低显卡负载,提高高并发场景下的稳定性和效率。最终的硬件选择应根据并发需求、预算和业务应用场景进行权衡,以确保在成本可控的前提下实现最优性能。
运行原理与AI幻觉
如果无法理解大模型背后的底层原理,在使用过程中可能会遇到两个主要问题:一是难以精准获取最理想的答案,二是可能AI误导。目前的通用语言大模型,无论是ChatGPT、DeepSeek还是Kimi,其本质都是概率分布模拟器,而非知识库。它们的核心工作方式是预测最有可能出现的文本组合,而非对生成内容进行事实验证。
1. AI的基本运行原理
目前的通用语言大模型本质上是一个基于概率预测的语言模型,它通过大规模训练数据学习词语、句子乃至段落之间的关系。每当用户输入一段文本时,GPT并不是在查找固定答案,而是在预测下一个最有可能出现的词或句子。这种生成方式类似于“智能补全”机制:当AI读到一个句子时,它会根据已训练的数据,计算下一个单词或短语出现的概率,并据此生成内容。例如,输入“法律合同的基本要素包括……”,模型会根据过往文本的分布规律,预测并补全“主体、标的、价款、权利义务”等内容。然而,GPT 并不具备真正的理解能力,它的回答依赖于统计模式,而不是对事实的理性推理。因此,当它缺乏相关训练数据时,仍然会依据已有的语言模式生成“最可能”但未必真实的答案,这也带来了AI的核心风险之一——AI幻觉。
2. AI幻觉:概率模型的局限性与风险应对
AI幻觉是指模型在缺乏足够信息的情况下,仍然自信地生成错误或虚构的内容。其根本原因在于,GPT并不会判断某个信息是否真实,它只是选择概率最高的词语组合,而这些组合可能来源于不完整、不准确甚至是错误的数据。
当模型的参数规模较小时(即训练数据有限、计算能力受限),它对现实世界的认知就越受局限,导致幻觉现象更加明显。例如,一个参数较低的GPT可能会在回答金融市场、法律条文、医学知识等专业问题时,因缺乏足够的训练数据而凭空编造条款、引用不存在的学术论文,甚至篡改已知数据。
由于GPT的回答是基于概率分布,而不是事实验证,在实际应用中必须谨慎对待它生成的信息,尤其是在法律、医学或金融等专业领域,AI可能会误导决策。此外,GPT 在逻辑推理上的局限性也不容忽视,它在处理复杂推理时可能会遗漏部分前提,导致生成的内容前后矛盾。另一方面,GPT依赖的训练数据存在时间滞后性,无法反映最新的政策、法规或市场变化,这使得它在涉及实时信息时可能提供过时甚至错误的内容。
为了降低AI幻觉的影响,需要结合多种方式进行优化。首先,使用AI生成内容时应进行交叉验证,特别是对于法律法规、学术研究等严谨领域,必须查阅权威信息源进行核实。其次,可以调整提问方式,例如采用分步推理(Chain of Thought),让AI逐步解析推理过程,而不是直接给出最终答案,这有助于减少幻觉现象。除此之外,还可以结合RAG(检索增强生成)技术,让AI参考最新的数据库,而不仅仅依赖其训练时存储的信息,从而提升回答的准确性。最重要的是,必须认清GPT只是一个基于概率预测的模型,而非真正的知识库或智能体,在使用过程中保持理性判断,避免盲目信任其输出结果。
调整参数的目的是什么?
防范风险并调整参数的主要目的是提高模型的可靠性和适用性,以减少AI幻觉带来的误导,同时优化生成内容的准确性和逻辑性。
在实际应用中,调整参数可以帮助控制AI的输出方式。例如,通过调整温度参数(Temperature),可以影响GPT生成文本的随机性——降低温度值会让AI选择更确定、更常见的答案,而提高温度值则会增加其创造性,但也可能带来更多不确定性。此外,调整最大生成长度可以避免模型输出过长、信息散乱或偏离主题的内容,而使用Top-k或Top-p采样可以帮助减少低概率、不可靠的答案,提高生成文本的稳定性。
从风险防范的角度来看,优化这些参数可以使AI在面对专业领域(如法律、医疗、金融等)时,减少生成虚假信息的概率,使回答更加符合事实和逻辑,同时避免因过度自由发挥而产生不受控的幻觉内容。通过调整参数,使模型在不同的使用场景中实现更符合需求的表现,无论是需要稳定准确的专业回答,还是鼓励创新和多样性的内容生成,都能更好地满足实际应用需求。
Manus
人工智能技术正以前所未有的速度发展,从传统的概率预测模型到更智能的推理和决策系统,AI的能力边界不断被拓展。北京时间2025年3月6日凌晨,Monica.im研发的全球首款AI Agent产品——Manus正式发布,旨在模拟人类的思维和行动方式,提供强大的智能助手功能。
目前,Manus中文版与通义千问达成战略合作,将基于通义千问系列开源模型,致力于在国产模型和算力平台上实现Manus的全部功能。
虽然仍需等待,但是从中我们可以探究到的是与智能体思路的契合,在人工智能稳步前行之时,笔者团队已经发现了智能体的使用,恰逢manus发布,将这一想法贯彻落实,manus对此做了专门的研究、归集,这是十分值得期待的。
QwQ-32B本地化部署
Manus发布同日,通义千问开源了推理模型QwQ-32B,支持本地化部署。
在硬件要求方面,本地化部署QwQ-32B可在消费级显卡上运行,如英伟达RTX 4090,甚至更低配的30系显卡也能尝试,但对显卡性能有一定要求。
如果想要通过Ollama进行本地化部署,在上述教程进行到第九步时,将代码输入为“ollama run qwq”即可,或可通过API来连接本地运行的AI模型,从而实现私有化部署。这种方式的核心思路是:在本地搭建一个API服务器,让本地AI模型提供与云端API类似的接口,从而让本地应用程序可以像调用云端AI一样,调用本地部署的AI模型。第三种方式可以通过阿里云PAI平台进行本地化部署,也可以容器化部署到本地或云端服务器,以实现高效推理和微调。
与DeepSeek R1-671b在本地化部署方面相比,通义千问QwQ-32B的优势在于参数规模小,资源消耗低可在消费级显卡上部署,适合资源有限的环境,部署成本相对较少。在本地部署后,提问可实现秒回,响应速度快。开放API和容器部署方案,便于接入自有知识库和进行定制化开发,定制化自由度高。
QwQ-32B更适合资源有限、需要快速响应和高定制化自由度的场景;而DeepSeek 671B则适合对性能要求极高、需要处理复杂任务和数据安全要求严格的场景。
总结
法律行业的变革已经悄然开始,人工智能作为一项前沿技术,正逐渐渗透到法律的各个环节,人工智能时代的到来已成为不可逆转的大趋势。从案件检索、法律文书撰写到合同审核和诉讼策略分析,AI的应用正在改变法律服务的传统模式。随着大模型的不断发展和优化,法律人若仅停留在表面,未能深度挖掘其潜力,将难以在日益激烈的行业竞争中占据一席之地。撰写关于AI的文章的目的正在于此,不仅是让更多人尽早了解这些工具,更是为了帮助他们建立更深层次的认知,从而更有效地运用AI,提高工作与学习效率,而不是仅仅将其视为一个“新奇的技术”。
首先,法律人应当具备对人工智能技术的基本理解,尤其是如何识别、利用和规范AI工具在法律事务中的使用。AI不仅是一个强大的工具,还是一种可以改变工作流程、提升决策效率的能力。通过与AI协作,法律人可以将更多的精力集中在高附加值的事务上,如策略制定、客户沟通和法律论证,而将大量重复性、低价值的工作交给AI完成。其次,法律人应当了解AI在法律领域的伦理、合规与风险问题。在使用AI工具时,如何确保数据的保密性、如何避免算法偏见以及如何平衡自动化与人工干预的关系,都是法律人必须认真思考的课题。最后,法律行业应鼓励与AI技术相关的创新和探索。未来的法律服务将是人工智能与法律人的深度融合,只有通过持续的学习和适应,法律人才可以真正实现技术赋能,从而更好地服务客户、提升法律工作的效率和质量。
因此,法律人不仅应当在理论上理解AI的重要性,更应有深度的思考。每个法律人应当主动拥抱技术革新,去掌握和使用新工具,去探索如何与人工智能更契合,用工具来提升效率,在实践中积极拥抱技术革新,掌握和使用这些新工具。只有如此,个体才能确保在人工智能时代的浪潮中有先发优势,而不会被时代淘汰。
特别声明:
大成律师事务所严格遵守对客户的信息保护义务,本篇所涉客户项目内容均取自公开信息或取得客户同意。全文内容、观点仅供参考,不代表大成律师事务所任何立场,亦不应当被视为出具任何形式的法律意见或建议。如需转载或引用该文章的任何内容,请私信沟通授权事宜,并于转载时在文章开头处注明来源。未经授权,不得转载或使用该等文章中的任何内容。
1. 卢健等:《最高人民法院关于大型企业与中小企业约定以第三方支付款项为付款前提条款效力问题的批复》专题解读与实践建议
2.卢健等:“低空经济+物流”如何布局?——从法律视角展开(上)
3.卢健等:“低空经济+物流”如何布局?——从法律视角展开(下)
4.卢健等:无人机适航管理法律指南——以低空物流为视角
5. 卢健等:法律AI模型测评系列(三):DeepSeek等在民商事领域的表现与自用
本文作者
感谢实习生董新雨、郭佳林对本文作出的贡献
来源:大成律动