11版:数字检察·探索 上一版   下一版
 
标题导航
· 探寻数智赋能监督的新路径
· 法律与AI交融的试炼之路
· 解构法律文本要素的困境与突破
· 生成式人工智能的实战应用
· 基层院拓展类案监督数字化应用的发力点
 
正义网 | 返回检察日报首页 | 检察日报检索
上一篇   下一篇 2025年01月08日 上一期  下一期
解构法律文本要素的困境与突破
钱飞 王珣

  当前,检察机关数字检察工作正在深入推进,尤其是大数据法律监督模型的运行,有效提升了法律监督工作质效。但与此同时,运用大数据法律监督模型时的制约因素也不可忽视,如模型对数据的针对性、适应性要求较高,一旦脱离预先设定的数据格式和要素体系,将无法实现有效监督。而与数据要素密切相关的突出问题就是如何做好文本解构,即如何将非结构化的文本数据利用技术手段有效解析要素信息,形成结构化的数据表。

  文本解构之所以成为工作中的难点,主要原因在于法律文本的变化非千篇一律、法律事实错综复杂、法律逻辑精深交错。实践中,即使总结或提炼了某一类法律文书的规范化表述或模板范例,亦不能苛求所有的文书都能按照这样的“标准”来形成。这就决定了不能用固定的句式、结构、连接词来分析法律文书。在大语言模型产生之前,检察人员往往需要通过人工审阅的方式,对文本语义进行理解与判断后提炼出相关内容,形成所需要的数据表、数据库,再进行后续分析。

  众所周知,大语言模型已在很大程度上实现了对语义、文本的理解与分析,如果能将其有效运用于法律文本的解析,势必会带来突飞猛进的跨越。

  大语言模型运用于法律文本解构的现实困境

  利用大语言模型的第一步,是在确保数据安全和隐私保护的前提下,将大语言模型部署在检察机关的专用局域网内,以隔绝与外部网络的直接连接,避免数据泄露的风险。互联网上开放的大语言模型虽如雨后春笋,但受制于司法办案工作的涉密性,不允许检察人员将相关法律文书直接上传到互联网。因此,应运而生的是在政法智能化建设中崭露头角的可在内部网络中单独部署实施的大语言模型。然而,部署这样的模型并达到成熟的运用,离不开顶层设计、资金投入、人员支持、科学管理等多种因素。客观来看,特别是对于基层检察机关而言,想要理顺关系、走上正轨绝非一蹴而就,需要各方面的大量投入。

  突破法律文本解构困境的路径

  在实际工作中,将大语言模型运用于法律文本解构,立足基层院现有的软硬件条件,可从以下路径进行探索。

  一是对已公开的相关法律文书,可运用互联网上的大语言模型进行分析。

  已公开的起诉书等法律文书,已经按照有关规定,隐去自然人姓名、身份证号码等关键信息,转而以“某某”或“××”代替。这些文书均可在12309中国检察网上通过公开渠道获取。在需要提取的内容不涉及被隐去或代替的内容时,这些被处理的文书因内容完整、句子通顺,完全可以被大语言模型用来分析和提取相关要素。如当需要提取某交通肇事案的案发路段、地点时,可以将公开法律文书上的相关内容作为待分析对象,将其输入到大语言模型,即可准确地将无关的语句内容剔除,给出较为准确的案发路段、地点等信息。

  这种方法的局限性在于,仅能对在公开法律文书中完整展示的信息进行分析和提取,一旦所需要的信息在法律文书公开时被全部或部分隐去,就无法通过此种途径来实现。

  二是对可能涉密的法律文书,可运用文本处理技术剔除敏感内容,保留非涉密内容后运用互联网大语言模型进行分析。

  要分析在公开法律文书中已被处理的信息,检察人员必须立足于原始文书来想办法。笔者发现,利用简单的文本处理技术进行脱敏或脱密处理,提取出包含待分析文本内容的碎片文字或语句,再将这些并不包含任何敏感信息,甚至无实际含义的文字,上传至互联网的大语言模型进行分析,即可得到所需要的要素结果。

  如在运用监督模型提取起诉书中相关的公司、企业名称,一般来说,公开的法律文书中对具体的名称已经隐去。此时,检察人员可以用“公司”“企业”等关键字对原始文书进行提取,来得到原始文书中的一句话或文字。再对这些表达“不完整”“无意义”的文字进行脱敏处理,比如将“犯罪”“涉嫌”等可归纳的关键字词删除,即可得到更加无意义、无逻辑的只言片语,这些文字几乎没有任何含义,但却包含了完整的公司、企业名称,而这些名称恰恰是需要提取的目标。

  检察人员将这些已经不涉密的碎片文本上传到大语言模型进行分析,可便捷有效地提取相关的公司、企业名称,为下一步比对工作提供了充足的基础数据。这种方法的局限性在于,如果要对更加复杂的案情细节进行提取和文本预处理,就很可能“误伤”一些关键字,导致信息碎片化程度太高,难以实现有效提取。

  三是利用检察内网上的普通服务器、电脑,单独部署简单实用的大语言模型。

  当前,最新开源的一些国产大语言模型,已经可以依托本地网搭建在普通电脑上,即使没有高配置的硬件,也能实现运行。但需注意的是,利用低配置电脑运行大语言模型,其分析能力可能较弱。因此,在应用这类大语言模型时,不妨缩小切口,找到最适合的应用场景,针对某些或某类问题具体予以解决,避免一网打尽式的阐释与分析。例如,对上述举例中提及的地点路段分析、公司名称提取,利用内部网络大模型也可实现有效分析。同时,还可以利用大模型核对、纠正法律文书中的错别字,按照文书公开的要求规范处理身份证号码信息、人名等,都能得到较为理想的结果,同时,在规范检察文书制作、辅助业务数据管理等方面,也能够解决很多具体问题。

  (作者分别为江苏省泰州市海陵区人民检察院检察长,海陵区人民检察院副检察长)

上一篇   下一篇
 

检察日报社简介   关于我们   联系我们   采编人员
正义网版权所有 未经授权 严禁转载   Copyright 1998-2008,all rights reserved