您的AI解决方案首选之地

精选全球优质AI开源项目,助您快速找到适合的技术方案

ReasonerAgent

ReasonerAgent

一款开源的网页自动化助手:它可以在浏览器里完成各类复杂的任务,比如规划旅行、搜索航班、查找商品信息、研究新闻报道等

DiffSplat

DiffSplat

一个快速生成3D内容的AI工具,可以根据文本或图像1-2秒即可生成对应的3D内容

VisoMaster

VisoMaster

一款开源的AI软件,支持图片和视频的换脸,提供多种输入/输出格式,并允许自定义模型和微调

SiteRAG

SiteRAG

一个用于RAG的开源Chrome扩展程序,相当于内置在浏览器里的一个智能问答机器人

RAG-FiT

RAG-FiT

一个通过微调增强LLM RAG能力的框架,允许模型在生成文本时参考外部资料,从而提供更准确的回答,适用于特定领域如医疗和法律,具备模块化设计以便定制。

OpenDeepResearcher

OpenDeepResearcher

一个开源工具,能够快速自动进行主题研究,使用异步处理和LLM评估网页相关性,过滤重复内容并提取关键信息,最终生成全面的报告。

Chipper

Chipper

一个专注于本地化部署的智能对话增强工具,通过 RAG 技术,帮助用户实现私密、安全的 AI 对话与知识管理,支持网页界面和命令行两种使用方式

deep-research

deep-research

开源实现的 OpenAI Deep Research代理,无需支付 200 美元即可获得相同功能。

Midscene

Midscene

一款浏览器操作AI助手,用自然语言描述,它就能帮你操作网页、验证内容,并提取数据。

search2ai

search2ai

让你的 大模型 API 支持联网,搜索、新闻、网页总结,已支持OpenAI、Gemini、Moonshot(非流式),大模型会根据你的输入判断是否联网,不是每次都联网搜索,不需要安装任何插件,也不需要更换key,直接在你常用的三方客户端替换自定义地址即可,也支持自行部署,不会影响使用的其他功能,如画图、语音等

docling

docling

一款开源的文件转换工具,可以将PDF、DOCX、PPTX、图像、HTML、AsciiDoc、Markdown 等格式文档,导出为 Markdown 和 JSON 格式。

Cerebellum

Cerebellum

一个基于智能体的浏览器自动化工具,通过使用 LLM 构建的智能体,实现自动化操作键盘和鼠标,在网页上完成数据抓取、自动化测试等任务。

academicagentsV2

academicagentsV2

一个基于微软autogen框架开发的学术论文写作辅助工具。它通过多个专业化的智能代理(Agents)来协助用户完成从选题到大纲的论文写作过程。

AdvancedLivePortrait-WebUI

AdvancedLivePortrait-WebUI

这个工具可以手动精准修改照片中人物的眼睛、嘴巴等五官的形态。

pdf-extract-api

pdf-extract-api

使用 OCR 技术和 AI能力把 PDF 和图片转换为结构化的 JSON 或 Markdown 格式。

edge-tts

edge-tts

通过 Python 使用 Microsoft Edge 的在线文本转语音服务,无需 Microsoft Edge 或 Windows 或 API 密钥。

open-webui

open-webui

一个可扩展、功能丰富且用户友好的自托管 WebUI,旨在完全离线运行。它支持各种 LLM 运行器,包括 Ollama 和 OpenAI 兼容 API。

MoneyPrinterTurbo

MoneyPrinterTurbo

利用AI大模型,一键生成高清短视频

ai-chatbot

ai-chatbot

使用 Next.js 和 Vercel 的 AI SDK 构建的开源 AI 聊天机器人模板。

Crawl4AI

Crawl4AI

一个开源 Python 库,旨在简化网络爬取并从网页中提取有用信息。

kotaemon

kotaemon

一个基于 RAG 的开源工具,用于与您的文档进行聊天。

ebook2audiobook

ebook2audiobook

使用动态人工智能模型和语音克隆将电子书转换为带有章节和元数据的有声读物。支持1,107多种语言!

PDFMathTranslate

PDFMathTranslate

基于 AI 完整保留排版的 PDF 文档全文双语翻译,支持 Google/DeepL/Ollama/OpenAI 等服务,提供 CLI/GUI/Docker

epigram

epigram

开源、免费和AI驱动的新闻

xiaozhi-esp32

xiaozhi-esp32

小智 AI 聊天机器人

VITA

VITA

有史以来第一个开源的交互式全多模态LLM,支持基于 Flask 和 WebSocket 的实时交互部署。

ai-no-jimaku-gumi

ai-no-jimaku-gumi

自动将视频转换成字幕并翻译成多种语言

LatentSync

LatentSync

用于唇语同步的音频条件潜在扩散模型。

AI-reads-books-page-by-page

AI-reads-books-page-by-page

AI 驱动的 PDF 图书知识提取与总结工具

storm

storm

由 LLM 提供支持的知识管理系统,可研究某个主题并生成带有引文的完整报告。

llmstxt-generator

llmstxt-generator

一个数据抓取并能整理成适用于LLM格式的工具

miniperplx

miniperplx

一个开源的 AI 搜索,除了网站外还支持搜索推特和 Youtube 内容

OpenHands

OpenHands

是一款完全开源的编程工具,能够像人类一样编写代码、使用命令行、浏览网页等。被誉为超越 cursor 的编程方式。

Gemini Teacher

Gemini Teacher

基于 Gemini 2.0的英语口语练习助手 实时发音纠正和建议

SP-MangaEditer

SP-MangaEditer

一个完全免费的集成 AI 的网页漫画创作编辑工具

TEN Agent

TEN Agent

一款由 TEN 提供支持的对​​话式 AI,集成了 Gemini 2.0 Live、OpenAI Realtime、RTC 等。它提供实时的视觉、听觉和语言功能,同时与 Dify 和 Coze 等热门工作流平台完全兼容

browser-use-webui

browser-use-webui

基于Browser Use的一款浏览器AI助手

deepface

deepface

适用于 Python 的轻量级人脸识别和面部属性分析(年龄、性别、情绪和种族)库

LocalAI

LocalAI

LocalAI是免费的开源OpenAI替代品。LocalAI充当与OpenAI API规范的本地推理兼容的直接替换REST API。它允许您使用消费级硬件在本地或本地运行LLM、生成图像、音频(不仅如此),支持多个模型家族和架构。不需要GPU。

Perplexica

Perplexica

Perplexica 是一款人工智能搜索引擎。它是 Perplexity AI 的开源替代品

MockingBird

MockingBird

5秒内克隆您的声音并生成任意语音内容

Linly-Dubbing

Linly-Dubbing

智能视频多语言AI配音和翻译工具

Lobe Vidol

Lobe Vidol

一个互动式虚拟偶像的构建项目

Ollama OCR

Ollama OCR

一个基于 Ollama 视觉模型的图片文字识别工具,能帮你从图片中提取文字。

Deep-Live-Cam

Deep-Live-Cam

只需一张图片即可实现实时换脸和一键视频深度伪造

zerox

zerox

使用视觉模型将 PDF 转换为 Markdown

AI-youtube-insight

AI-youtube-insight

用 AI 打造视频内容分析利器

nv-ingest

nv-ingest

英伟达开源的一款智能文档信息提取及结构化工具

Riona-AI-Agent

Riona-AI-Agent

一款人工智能自动化工具,旨在与 Instagram、Twitter 和 GitHub 等各种社交媒体平台进行交互。它利用先进的人工智能模型来生成引人入胜的内容、实现交互自动化并高效管理社交媒体帐户。

plate

plate

由AI驱动的富文本编辑器

RAG WEB UI

RAG WEB UI

一个基于 RAG (Retrieval-Augmented Generation) 技术的智能对话系统,它能够帮助构建基于自有知识库的智能问答系统。通过结合文档检索和大语言模型,实现了准确、可靠的知识问答服务。

chat-with-pdf

chat-with-pdf

通过 PDF 聊天,您可以向 PDF 文档提问。使用 NuxtHub 构建和部署,并由 Cloudflare Workers AI 和 Vectorize 提供支持。

LangBot

LangBot

一个功能强大、可扩展的通信机器人平台,提供了丰富生态、支持扩展、多模态的能力,支持接入 QQ、微信、飞书等平台。

DeepSeek Engineer

DeepSeek Engineer

一款功能强大的编码助手应用程序,集成了 DeepSeek API,可处理用户对话并生成结构化的 JSON 响应。通过直观的命令行界面,它可以实时读取本地文件内容、创建新文件以及对现有文件应用差异编辑。

Sonic

Sonic

一个音频驱动的肖像动画工具,适合长视频生成,它在口型同步、表情和头部运动方面效果很好。

Zonos

Zonos

一个开源的TTS模型,允许对说话速度、音高变化、音频质量以及快乐、恐惧、悲伤和愤怒等情绪进行精细控制。

chatTTS

chatTTS

一款强大的对话式文本转语音模型,它有中英混读和多说话人的能力,可以配置为中文,英文,日文等六种语言。

ToucanTTS

ToucanTTS

一个开源的文本转语音,支持超过7000种语言的语音合成,具备多说话人语音合成功能,能够模拟多种说话人的节奏、重音和语调。

fish-speech

fish-speech

完美支持中英日语言的开源TTS模型,语音处理接近人类水平,模型使用约十五万小时三语数据训练,对中文支持非常的完美。

cursor-tools

cursor-tools

一个增强Cursor能力的工具,集成了Perplexity、Gemini 2.0、Stagehand,增加了其搜索能力、理解能力以及自动操作网页的能力。

rag-chat-component

rag-chat-component

一个用于构建支持RAG的AI聊天助手React组件:rag-chat-component,可以在Next.js应用中快速添加智能聊天助手

MedRAX

MedRAX

一个可以帮医生分析X光片的AI助手,它可以进行推理思考,回答复杂的医学问题,辅助医生思考和做决策,支持视觉问答、图像分割、病灶定位、报告生成、疾病分类等任务,可以分析胸片细节及病变并标注位置,能识别18种病理类型,生成诊断报告,可以根据任务自动选择合适的工具和分析方法,进行多步医学推理,支持交互对话,理解复杂的医疗查询

InspireMusic

InspireMusic

阿里开源的统一的音乐生成框架,可以生成音乐、歌曲及音频,支持生成长音频/完整音乐作品,音质很不错。

pandas-ai

pandas-ai

一个能让你用自然语言和数据对话的Python库,将该库依赖到自己项目中,只需几行代码,轻松实现数据读取,并能通过对话方式向数据进行提问。

Siri Ultra

Siri Ultra

Siri Ultra 是一个能在iPhone 上使用的AI 聊天快捷指令,无需下载任何App,最新版支持了 DeepSeek R1+联网。

onlook

onlook

面向设计师的开源 Cursor。直接在实时 React 应用中进行设计,并将更改发布到代码中。

open-health

open-health

一个可以本地运行的 AI 健康助手,自动解析健康数据,支持 血液检测、体检数据、症状分析。

video-starter-kit

video-starter-kit

一款基于浏览器的AI视频制作工具,可以直接在浏览器里处理视频,比如自动生成视频、视频编辑。

FilmAgent

FilmAgent

一个基于多智能体协作的虚拟电影自动化制作系统,,它相当于一个AI电影制作团队,可以在虚拟环境中自动制作短片,可以执行从剧本创作到实际拍摄的整个工作流程。

Hunyuan3D-2

Hunyuan3D-2

腾讯开源的最新3D生成模型:生成的几何结构更细致,纹理颜色更丰富,性能超过了现有开源和商业模型

Upsonic

Upsonic

一个企业级的AI代理框架,它把LLM、工具调用和任务管理三者结合在一起完成自动化任务,可以让它搜索信息、写邮件、处理表格等等,智能自动化办公。

xyne

xyne

一款工作中的智能搜索问答工具,它整合了工作中的各种数据,可以高效查找各种文件、邮件、聊天记录、应用工具等数据并回复问答。

note-gen

note-gen

一款专注于记录和写作的跨端 AI 笔记,能快速捕捉和整理碎片化知识,将记录内容整理成一篇笔记

Augmentoolkit

Augmentoolkit

一个用来训练和微调的小工具Augmentoolkit 。这个工具可以将任何原始文本(比如小说,或者传感器数据,或者社交媒体数据)转换为高质量的自定义数据集。

hacker-news

hacker-news

一个基于 AI 的 Hacker News 中文播客项目,每天自动抓取 Hacker News 热门文章,通过 AI 生成中文总结并转换为播客内容。

KET-RAG

KET-RAG

一款结合了知识图谱和关键词检索的RAG框架:KET-RAG ,可以更高效的提取信息、降低索引成本,适合大规模RAG应用场景。

anything-llm

anything-llm

可以将任何文档、资源(如网址链接、音频、视频)等内容转换为上下文,以便任何大语言模型(LLM)在聊天期间作为参考使用。

scira

scira

是一款极简的 AI 搜索引擎,可帮助您在互联网上查找信息。由 Vercel AI SDK 提供支持!使用 Grok 2.0 等模型进行搜索。

Step-Audio

Step-Audio

首个集语音理解与生成控制一体化的产品级开源实时语音对话系统 - 支持多语言对话(中文,英文,日语) - 语音情感(开心,悲伤) - 方言(粤语,四川话) - 可控制语速及韵律风格 - 支持RAP和哼唱等 - 语音克隆

kg-gen

kg-gen

一个基于AI可从任意文本中提取知识图谱的工具,支持处理长、短文本,也可以处理对话格式的消息,可以用于构建知识库、做数据分析等

PIKE-RAG

PIKE-RAG

微软开源的一个用于专业领域问题的RAG系统,它解决了传统RAG处理专业领域知识时的局限性,比较适合处理深度领域知识和多步逻辑推理的场景。

wdoc

wdoc

一款支持15+种格式文档的RAG系统:wdoc,包括PDF、网页、YouTube、音频等,可以对大量文档进行总结、搜索及查询

deep-research-web-ui

deep-research-web-ui

deep-research的可视化版本,所有配置和 API 请求均在浏览器端完成,流式传输 AI 响应并在界面实时展示,树状结构可视化研究过程 支持英文搜索,支持导出Markdown和PDF格式报告。

MultiPost-Extension

MultiPost-Extension

一键同步发布到多个社交平台上,如微博、知乎、小红书等十多个主流平台,支持发布文字、图片、视频等多种内容形式,支持自动抓取网页内容、定时发布、结合 AI 生成内容等功能。

DeepChat

DeepChat

一个简洁的仿真的DeepSeek第三方开源客户端:DeepChat。支持DeepSeek、硅基流动、Ollama等多个模型云服务商,支持多路聊天并发,可自由切换到新的会话使用。

IndexTTS

IndexTTS

由B站推出语音模型 IndexTTS,超越了当前流行的 TTS 系统,包括 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等。系统的多个模块经过增强,特别是在扬声器条件特征表示和音频质量优化方面进行了深度改进。通过引入混合建模的方式,IndexTTS 能够快速纠正误读的汉字,提升了用户的使用体验。

ai-trend-publish

ai-trend-publish

一个基于 AI 的趋势发现和内容发布系统,支持多源数据采集、智能总结和自动发布到微信公众号

Claude Code

Claude Code

Anthropic 开源了一款在终端中运行的 AI 编程助手,支持理解和操作本地代码库,能够执行基本编码任务、解释复杂的代码逻辑、处理 Git 工作流程等。

LLM Scraper

LLM Scraper

一个开源的 TypeScript 库,使用 LLMs 从任何网页中提取结构化数据,支持 Ollama、OpenAI 等 LLM 提供商,允许输入 html、markdown、text、image 等多种格式化模式提取数据。

olmOCR

olmOCR

高效的PDF文本提取与视觉语言模型这正好在做RAG前置的知识库文件解析库对比,olmOCR看官方数学超过Marker、MinerU等。

AstrBot

AstrBot

易上手的多平台 LLM 聊天机器人及开发框架✨。支持 QQ、QQ频道、Telegram、微信个人号(Gewechat)、企业微信、飞书、内置 Web Chat,OpenAI GPT、DeepSeek、Ollama、Llama、GLM、Gemini、硅基流动、月之暗面、OneAPI、LLMTuner,支持 LLM Agent 插件开发,可视化面板。一键部署。支持 Dify 工作流、代码执行器、Whisper 语音转文字。

DeepSeek-RAG-Chatbot

DeepSeek-RAG-Chatbot

一款开源免费、可离线运行的高级 RAG 对话工具,集成了 DeepSeek、GraphRAG 等技术,能够从 PDF、DOCX 和 TXT 文件中快速准确地检索信息。

AigcPanel

AigcPanel

一个简单易用的一站式 AI 数字人系统,支持视频合成、声音合成、声音克隆,简化本地模型管理、一键导入和使用 AI 模型。

Mastra

Mastra

Mastra 是一个自定的 Typescript 框架,可帮助您快速构建 AI 应用程序和功能。它为您提供了所需的一组原语:工作流、代理、RAG、集成和评估。您可以在本地机器上运行 Mastra,也可以部署到无服务器云。

Cognita

Cognita

一个开源的低代码 RAG 框架,基于 LangChain/LlamaIndex 构建,简单易用,提供数据上传、模型管理、联网和提示词模板等功能。同时无需编写代码,即可轻松构建、调试和发布 RAG 应用。可 Docker 快速部署,支持主流模型或通过 Ollama 使用本地模型。

Ai2 Scholar QA

Ai2 Scholar QA

一款专为科学查询和文献综述设计的 RAG 系统,通过从多篇文档中检索证据并合成组织良好的报告,帮助研究人员快速获取科学问题的有依据答案,支持多个主流 LLM,提供完整的 Python 包与 Docker 容器部署方案,方便使用。

prompt-optimizer

prompt-optimizer

一款提示词优化器,助力于编写高质量的提示词。

Level-Navi Agent

Level-Navi Agent

一款面向中文网络搜索的AI agent框架,它能更好的理解及回答复杂的中文搜索问题。

EgoLife

EgoLife

一个日常生活AI助手,就像个人的私人助理,可以帮你记住重要事件、跟踪习惯、做事件回忆以及任务管理等。

Crawlee-Python

Crawlee-Python

一个用于 Python 的网页抓取和浏览器自动化库,用于构建可靠的爬虫。提取 AI、LLM、RAG 或 GPT 的数据。从网站下载 HTML、PDF、JPG、PNG 和其他文件。适用于 BeautifulSoup、Playwright 和原始 HTTP。有头模式和无头模式。具有代理旋转功能。

CopilotKit

CopilotKit

一款开源的框架,支持创建、部署和管理定制AI助手,包括AI聊天机器人、AI代理和AI文本区域。它具有应用感知、第三方服务集成和生成式UI的能力。

storm

storm

斯坦福开源的一个基于LLM的知识管理系统。

OnnxOCR

OnnxOCR

一款基于PaddleOCR重构的轻量级OCR工具,支持80多种语言推理。使用ONNX模型后,推理速度比使用PaddlePaddle框架快5倍。

PDF-Extract-Kit

PDF-Extract-Kit

一个高质量的PDF内容提取工具,通过多个模型实现了对各种文档类型的提取,包括布局检测、公式检测和识别、光学字符识别等。该工具适用于扫描模糊或有水印的情况下,具有高鲁棒性。

audio-separation-nodes-comfyui

audio-separation-nodes-comfyui

一个开源的音频处理工具,可以从歌曲中分离出人声、贝斯、鼓声等,并进行创意音频编辑和混音制作。支持音频切片、裁剪和按需编辑音频片段。

cline

cline

一个集成了Claude 3.5 Sonnet的VSCode插件,提供了强大的编程/开发体验。它可以处理复杂任务,包括读写文件、创建项目、执行终端命令等。还能执行代码生成、项目管理、自动化脚本执行、文件操作、交互式开发辅助、API使用情况跟踪、代码差异显示和命令执行输出等功能。

PraisonAI

PraisonAI

一个低代码平台,用于构建和管理多个agent助手。适用于工作流程自动化需求的场景,非专业开发人员也可以使用。它集成了不同框架,提供了简单易用的用户界面,支持自定义agent的角色、任务和交互,以及开发和集成自定义工具。还支持多种模型和系统全自动化模式。

mermaid

mermaid

一个基于Javascript的开源图表绘制工具,通过解析类似Markdown的文本语法来创建和修改图表。它提供了实时编辑器和GitHub页面,非程序员也可以使用它来创建复杂的图表。

AgentScope

AgentScope

一款支持拖拽构建多智能体应用的低代码开发工具。容易上手,提供丰富的组件和指南,支持在线拖拉拽编程和在线小助手功能。

Typebot

Typebot

一款低代码聊天机器人构建工具,提供可视化的拖拽界面,支持文本、图片、视频、音频等多种交互方式。具有34+种功能构建模块,支持自定义外观与品牌匹配,可以共享并嵌入到网页中。还支持结果收集和洞察分析,可以导出结果为CSV文件。

composio

composio

一个可以一站式构建各类AI agent的工具,集成了100多种工具,支持多类框架,提供丰富的工具库和开发环境,简化开发流程,提高准确性,支持嵌入和扩展。

SuperCoder

SuperCoder

一个AI驱动的软件开发系统项目,可以自动完成整个软件开发流程,提供Web UI和与AI工具集成的功能。目前支持Python和JavaScript框架,未来会扩展其他框架。

Llama Tutor

Llama Tutor

一个基于Llama 3.1的开源教育项目,提供个性化的AI导师服务,覆盖从小学到研究生的各个阶段和多个主题。使用Llama 3.1 70B语言模型和Together AI进行推理。

metahuman-stream

metahuman-stream

是一个实时交互流式数字人项目,支持多种数字人模型、声音克隆、数字人说话被打断、全身视频拼接、rtmp和webrtc推流以及视频编排。

langgraph-swarm-py

langgraph-swarm-py

Langchain 发的一个官方构建多Agent 的库,在 OpenAI Swarm 上面进行拓展,可以根据代理专业知识动态地相互交接任务来进行协作。

Yogu

Yogu

一款基于 Tauri 和 Vue 3 构建的简洁且功能丰富的AI 聊天桌面应用,,支持联网搜索、聊天历史管理、文件上传以及多主题切换等功能。

Shandu

Shandu

一款 Deep Research 开源平替,它利用 LLM 和网络爬虫技术,对任意主题进行全面研究,自动生成包含完整引用的综合报告,省去繁琐的手动资料收集工作。适用于学术研究、市场情报、内容创作、技术探索、政策分析和竞争分析等多种场景。

writing-helper

writing-helper

一款开源的 AI 写作助手,只需要输入一个主题,提供相关的关键词,以及字数控制,即可创作出一篇符合要求的文章。支持自定义写作风格提示词,实时预览和编辑生成的文章,支持 OpenAI、Claude、Gemini 等主流 AI 模型。

AgenticSeek

AgenticSeek

一款完全本地化的AI助手项目,支持语音交互、文件系统操作、代码编写与调试、网页浏览、自主任务规划和执行等。

Oliva

Oliva

Oliva

rf-detr

rf-detr

是一个开源实时目标检测模型,基于DETR架构和DINOv2,能在边缘设备上以约6毫秒处理每张图片,提供两个版本,分别为29M和128M参数量,已在Microsoft COCO基准测试中超过60AP。

DeTikZify

DeTikZify

可以将草图或文字描述转换为TikZ代码,支持自动识别图表的组成部分并根据语义信息更新代码,利用MCTS算法不断改进生成质量。

Dolphin

Dolphin

Dolphin 是一种多语言、多任务 ASR 模型,由 Dataocean AI 与清华大学合作开发。它支持东亚、南亚、东南亚和中东的 40 种东方语言,同时还支持 22 种中国方言。它基于超过 210,000 小时的数据进行训练,其中包括 DataoceanAI 的专有数据集和开源数据集。该模型可以执行语音识别、语音活动检测 (VAD)、分段和语言识别 (LID)。