AnimateAnyone
AnimateAnyone
AnimateAnyone(http://t.cn/A6lLddEA)的开源实现Moore-AnimateAnyone,可以了解一下↓ 项目:github.com/MooreThreads/Moore-AnimateAnyone 这是一个非常初步的版本,旨在接近AnimateAnyone中显示的性能(在我们的测试下大约为 80%) 当前版本还存在以下缺陷: → 当参考图像具有干净的背景时,背景可能会出现一些伪影 → 当参考图像和关键点之间存在比例不匹配时,可能会出现次优结果。该版本尚未实现论文中提到的预处理技术。 → 当运动序列微妙或场景静止时,可能会出现一些闪烁和抖动。 当然,作者还在持续优化,些问题将在不久的将来得到解决和改善。 附:另一个实现在这里github.com/guoqincode/Open-AnimateAnyone
MobileVLM:一种快速、可复现且强大的适用于移动设备的视觉语言助手。
MobileVLM:一种快速、可复现且强大的适用于移动设备的视觉语言助手。
MobileVLM:一种快速、可复现且强大的适用于移动设备的视觉语言助手。
论文摘要:
我们向您介绍MobileVLM。这是一款专为移动设备打造的、出色的多模态视觉语言模型(MMVLM)。
MobileVLM混合了各种面向移动设备的架构设计和技术。这其中包括一套从零开始训练的大规模语言模型(参数达到14亿和27亿),一个使用CLIP方法预训练的多模态视觉模型,以及一个高效的投射器,可实现跨模式交互。
我们使用了几种典型的VLM基准测试来评估MobileVLM。结果表明,我们的模型与一些大模型相比,表现相当出色。我们在Qualcomm Snapdragon 888 CPU和NVIDIA Jeston Orin GPU上测量了推理速度。
令人兴奋的是,我们取得了21.5个和65.3个 Token 每秒的推理速度,这在业界属于领先水平。
论文地址:https://arxiv.org/abs/2312.16886
https://weibo.cn/sinaurl?u=https%3A%2F%2Farxiv.org%2 ...
NoMask文本到人体动作
NoMask文本到人体动作
AI除了有文本到图像、视频,还有文本到动作↓
MoMask是文本到人体动作的新研究方向,生成的动画可以导入Blender和其他CG软件中。
项目:huggingface.co/spaces/MeYourHint/MoMask
论文:arxiv.org/abs/2312.00063
MoMask: Generative Masked Modeling of 3D Human Motions(3D 人体运动的生成蒙版建模)
论文摘要:
我们介绍 MoMask,这是一种新颖的蒙版建模框架,用于文本驱动的 3D 人体运动生成。
在 MoMask 中,采用分层量化方案将人体运动表示为具有高保真细节的多层离散运动标记。
从基础层开始,利用通过矢量量化获得的运动令牌序列,导出递增阶的剩余令牌并将其存储在层次结构的后续层中。因此,后面是两个不同的双向Transformer。对于基础层运动标记,指定了一个 Masked Transformer 来预测以训练阶段的文本输入为条件的随机掩蔽运动标记。
在生成(即推理)阶段,从空序列开始,我们的 Masked Transforme ...
Open Interpreter
Open Interpreter
Open Interpreter 这项目强的离谱啊,想玩玩了。
作者给了他一张有,温度传感器、LCD面板和Arduino的照片。
他就自己打开Arduino的编辑器写了代码让LCD面板现实温度传感器读取的温度。
Open Interpreter(开放解释器) 可以让大语言模型(LLMs)在本地运行代码(比如 Python、JavaScript、Shell 等)。安装后,在终端上运行 $ interpreter 即可通过类似 ChatGPT 的界面与 Open Interpreter 聊天。在代码运行前都会要求你批准执行代码。
Open Interpreter(开放解释器)通过在本地环境中运行。它可以完全访问互联网,不受运行时间或是文件大小的限制,也可以使用任何软件包或库。
项目地址:https://github.com/KillianLucas/open-interpreter/?continueFlag=22d463803a5e9fe20c66258db2d14df1
Quiver云大脑
Quiver云大脑
【Quiver:一个设计成在云中作为您的“第二大脑”,用于轻松存储和检索非结构化信息的工具,其功能类似于 Obsidian,但由生成式 AI 提供支持,可以直接和存储的资料进行对话】’Quiver - Dump all your files and thoughts into your GenerativeAI brain and chat with it’ Stan Girard GitHub: github.com/StanGirard/quiver
LARP:一个开放世界游戏代理,赋予游戏角色真实的语言和认知能力
LARP:一个开放世界游戏代理,赋予游戏角色真实的语言和认知能力
LARP:一个开放世界游戏代理,赋予游戏角色真实的语言和认知能力
LARP能让游戏角色像真人一样和玩家对话,同时能够理解游戏中复杂的情境、记住过去的互动。并根据这些信息做出合理的反应。
它能让游戏角色的行为更加真实和有深度,从而提升玩家的游戏体验。
LARP的工作原理是通过先进的认知架构和环境交互模块,结合后处理方法,使得游戏中的AI代理能够以更真实、更有深度的方式与玩家互动,从而提升整个游戏的体验。
认知架构:能够模拟人类的认知过程,包括记忆处理和决策制定。
环境交互模块:与游戏环境互动,学习和适应环境变化。
主要功能:
更自然的对话:它能让游戏中的角色以更自然、更流畅的方式与你对话。你可以用自然语言向它们提问,它们也能以类似真人的方式回答。
角色有自己的记忆和个性:这些角色不仅能记住你之前的互动,还会根据它们的“个性”做出反应。比如,一个友好的商人可能会记得你上次帮助他,而一个狡猾的盗贼可能会试图欺骗你。
更丰富的游戏体验:这些代理能够根据游戏中发生的事件做出反应,提供更多样化的游戏体验。例如,如果游戏 ...
Portkey-AI gateway
Portkey-AI gateway
在 GitHub 上有一个称之为 “AI Gateway(AI 网关)” 的工具。
通过统一简单的 API,让你轻松快速接入 100 多种大语言模型,如 OpenAI、Anthropic、Mistral、LLama2、Google Gemini 等。
GitHub:github.com/Portkey-AI/gateway
具有如下特点:
占用空间极小,仅仅约 45kb,但其处理速度极快,达到快 9.9 倍。
可以同时连接多个模型,并能处理多个模型、服务提供商和密钥之间的负载平衡。
设置故障转移机制,当一个模型出现无法使用情况,可自动切换到可用模型,确保你的应用持续稳定运行。
默认配置自动重试,并采用指数回退策略,进一步提高请求的稳定性。
可根据需求添加中间件,满足你个性化需求。
已经在超过 100B Tokens 上进行了实战测试。
无题
网易有道开源了一款名为 QAnything 的知识库问答引擎,可实现一键部署!
不仅可调用云端大模型服务,还可实现纯本地部署。但官方建议在配备 NVIDIA 3090 16GB 显存以上的电脑上进行本地部署。
支持导入 PDF、Word(doc/docx)、PPT、Markdown 等多种格式的文档,即可像与 GPT 对话那样,提供准确、快速、可靠的问答体验。
GitHub:github.com/netease-youdao/QAnything
主要有如下特点:
数据安全:支持全程断网安装与使用。
跨语种问答:无缝切换中英文问答,不限文件语种。
海量数据处理:采用两阶段向量排序,有效解决大规模数据检索问题,数据越多效果越好。
高性能生产级系统:适用于企业应用的直接部署。
易用性:无需繁琐的配置,一键安装部署,拿来就用。
多知识库问答:支持选择多个知识库进行问答。
shutter-encoder免费视频转换
shutter-encoder免费视频转换
#开源项目推荐#:paulpacifico/shutter-encoder
Shutter Encoder是一款开源免费的视频压缩编辑软件,支持windows和Mac。
主要功能包括:
修剪和剪辑视频
优化图片
强大的裁剪支持
生成和烧录剪辑信息
字幕嵌入和烧录
添加水印
内置字幕编辑器
等等
https://www.shutterencoder.com/en/
https://github.com/paulpacifico/shutter-encoder?continueFlag=ee66df50d8b2c452419ecff089efadc7
Apache Answer开源问题社区
Apache Answer开源问题社区
VisActor(图一):字节推出的前端数据可视化方案。网页链接
paint-board(图二):开源画板,提供各种笔触。网页链接
Apache Answer(图三):开源问答平台软件,帮你快速建立问答社区。网页链接
Yazi(图四):运行在终端里面的文件管理器,跨平台。网页链接


