08:59 · Jul 9, 2025 · Wed #AI VLLMlocal是一个基于Azure OpenAI服务的多模态AI助手系统,支持文本对话、图片分析和视频分析。系统能够智能处理图像内容,并结合视频画面和音频内容进行全面分析,为用户提供丰富的多模态交互体验。https://github.com/lilin2001915/VLLM_local GitHub GitHub - lilin2001915/VLLM_local: 支持视频和语音的全模态大模型,通过关键帧提取以及音频转录信息整合的方式实现全模态理解。搭建前端页面更方便操作,只需修改大模型api等信息就可直接运行 支持视频和语音的全模态大模型,通过关键帧提取以及音频转录信息整合的方式实现全模态理解。搭建前端页面更方便操作,只需修改大模型api等信息就可直接运行 - lilin2001915/VLLM_local