FAQ
输入“/”快速插入
FAQ
1.
BISHENG(毕昇)平台与langflow、flowise有什么区别?
我们是基于langchain跟langflow封装的。所以核心编排能力跟langflow、flowise是类似的。在此基础上,我们还做了以下几方面工作:
•
当前langflow或flowise主要服务实验测试场景,在正式上线这方面比较弱,这个是我们当前正在加强的,比如私有大模型的模型仓库管理与上下线管理,高并发请求下的高可用,以及逐渐增加更多贴合企业用户需求的应用功能,比如企业里面的一大痛点是写一些专业的分析报告,这个能力是我们提供的比较特色的能力;再比如后续会支持流程自动化相关的能力,支持与RPA对接等。
•
企业内的数据往往是比较“脏”的,比如各种PDF扫描件、PPT、Excel、Word等,这些数据如何进入知识库,涉及到比较繁杂的数据预处理工作。这个部分是我们团队过去几年在做的方向,所以也会把这部分能力引入进来,提高在真实企业内落地的效果。
•
在规划中的能力包括:提供应用的运营及效果持续迭代能力、与外部输入数据(天眼查、金融、股市数据等)对接的能力、与外部系统(微信、飞书、ERP、CEM)对接的能力等。(记于20230912,您看的时候部分功能可能已经有了)
•
还有很多细节优化,因为我们真正用langchain或者langflow时往往会发现效果并不好,我们会提供各种增强能力。比如很多场景下向量召回其实不如ES召回效果好,我们推出了自己的向量融合ES的联合召回策略,提升落地应用的效果。再比如集成autogen(知名的多智能体框架)、我们在自研的自称为autoplanning的技术等等。
总之,我们是站在巨人肩膀上,同时做了一些实际落地过程中的优化工作~
2.
BISHENG是完全开源的吗?允许商业使用吗?
BISHENG基于
Apache 2.0 License
完全开源,允许商业使用。也就是说您可以直接给您的客户部署或者自己部署自用,不必给我们付费,也不必向我们申请授权。
3.
BISHENG为什么开源?会一直开源吗?你们怎么挣钱?
BISHENG主要面向企业级市场,也就是常说的“企业服务”市场,在这个市场,客户真正买单的是 [服务] 或直接的 [业务价值],而不是产品。
我们认为要把 [企业服务] 这件事做好,一定需要联合各个领域的专家及公司,所以我们把BISHENG开源了,希望能连接到尽可能多的同道中人,也欢迎合作伙伴们联系我们讨论各种形式的合作。
我们本身也提供一些付费产品与服务,包括:1、BISHENG平台的实施落地人天服务;2、BISHENG平台按年订阅的付费维保服务;3、BISHENG相关应用落地开发或咨询人天服务;4、闭源的文档解析与结构化模型(也可申请自用场景下的免费授权);5、BISHENG在垂直领域落地的精选应用产品(产品打磨中)。
当前已有许多行业头部客户选择了BISHENG的付费产品与服务,包括最终企业客户的IT部门、软件开发厂商、集成商等等。欢迎更多的伙伴联系我们一同推动大模型应用的落地应用。
4.
BISHENG-RT中的闭源文档解析类模型如何申请
如图所示,在
私有化部署
文档的“BISHENG-RT 安装 [可选] ”部分
5.
BISHENG(毕昇)平台支持在Mac或Windows上部署吗?
暂时不支持。由于BISHENG(毕昇)主攻的是企业级场景落地,企业级落地对于资源的要求较高,所以我们目前支持在linux系统上部署。
6.
在BISHENG上创建并验证好技能之后,是否支持整体打包成镜像用于在其他平台上部署?
一般来讲,大家都会有两套环境,一套是开发环境,一套是生产环境。这个问题想了解的应该是指从开发环境测试验证的技能如何去生产系统上线。
目前我们建议的方案是,BISHENG在开发和生产环境,产品本身没有区别(最好是保持版本完全一致),而部署方案可能会不一致,因为生产要考虑高可用。所以从开发环境到生产环境上线,目前只需要导出BISHENG平台的技能文件,然后在生产环境的BISHENG上导入即可。
关于BISHENG在生产环境的高可用,一般建议mysql、es、redis、Milvus这类通用组件直接对接客户自己已有的,这样统一去保障这些组件的高可用,BISHENG特有组件(前后端、RT、RT-enterprise、Unstructure)的高可用。
然后,BISHENG本身支持直接对外暴露API提供服务:
接口文档
7.
在知识库问答场景中,段落应当怎么切分之后转向量比较好?
这个问题没有标准答案,需要考虑以下几个方面:
1.
所使用embedding模型本身支持输入的最大文本长度(embedding模型排行榜:
https://huggingface.co/spaces/mteb/leaderboard
)
2.
考虑具体场景数据的特点,比如字典类型的数据(如《中华药典》),应当按照每个词以及其解释切;比如文书类,用段落标题切比较好;总的来说按照相对语义完整的颗粒度进行切分
3.
使用大语言模型支持的token数量;
4.
知识库问答时,知识是比较分散还是比较集中(分散的话,召回的chunk数量就会多,集中的话,召回的chunk数量可以小)