技术亮点

1. AI前沿技术加持¶

Free2AI采用当前最先进的人工智能技术和大数据处理方案，构建了一个既具备高速采集能力，又能深度理解语义的智能系统。主要技术架构包括：

利用最新文本大模型、多模态大模型，对海量文本信息进行语义解析和情感分析，实现智能问答、语义匹配和内容推荐。技术指标媲美国际顶尖水平，为用户提供最为精准的信息检索服务。

采用最新的分布式存储与计算技术，支持大规模数据的并行处理和实时查询。系统具备高可用性、高并发处理能力，确保在短时间内处理海量数据，快速响应用户请求。

系统内置智能优化算法，能根据不同应用场景和用户行为自动调节策略，实现个性化服务和自我进化，从而不断提升服务质量和用户体验。

Free2AI采用模块化设计理念，每个功能模块均独立封装，用户可以根据具体需求进行灵活定制与扩展。主要模块包括：

包括网页智能采集、API数据接入、RSS订阅等多种采集方式，无需模板配置，即可适配各种数据源。

支持多种文件格式自动解析、内容分类、标签生成等功能，为后续知识库构建提供精准数据支撑。当前已经支持的文档包括：pdf、doc、docx、ppt、pptx、xls、xlsx、html、txt、markdown、jpg、png、bmp、gif、tif、webp。

集成FAQ构建、智能匹配、自动问答生成与反馈自学习机制，打造高效、精准的智能问答系统。

提供一键JS代码生成和多平台SDK接口，支持网站、APP、小程序等多终端无缝接入，实现统一服务和数据共享。

各种类型文档解析是非常复杂的事情。Free2AI充分利用大模型实现智能抽取，包括：

对于pdf、pptx，一般批量转为图片，再调用大模型视觉接口批量识别。大模型目前的OCR水平远远高于各种本地部署的OCR模型，只有最新开源的olmOCR勉强接近大模型的水准。但是大模型可通过提示词自动化去掉水印、页面、页码、公章等干扰信息，这是各种本地OCR远远不能比的。

所有文件解析结果输出为LLM-ready**的markdown格式。

文档分片复杂度不下于文档解析。目前各种RAG应用里，各种产品实现了不同的切片方式，没有一种统一的方式能证明是最佳的，总会和文档内容相关。目前我们实现的切片方式为：

网页切片：将html转为markdown后，参照markdown结构进行切片。将标题和后续的段落合并在一起；如果当前段落超长需要切分开，则每部分分片前都加上本层级的标题；代码段、引用、表格不切分开。由于爬虫是java实现的，所以目前网页切片是java实现。
文档抽取内容分片：文档解析后结果进行切片，也是主要按照markdown结构进行，标题和后续内容合并，代码段、引用、表格不切分开。但是考虑到切片连续性，上一个分片的最后两句会自动插入到下一个分片的前面，确保语义连贯。文档切片有python实现。

目前索引存储在milvus中，同时存储了稀疏向量和稠密向量。检索时，同时按BM25算法查询关键词、按向量进行语义检索。排序阶段按照两种检索的结果，针对query重新进行语义计算，确定顺序，最后输入到大模型生成答案。