文章主题:开源免费教程, AIGC, ChatGPT, Midjourney
公众号关注“卡尔的AI沃茨”设为“星标“,了解最新的AIGC资讯
作者:Shutian, 卡尔
AIGC开源免费教程已经涵盖了ChatGPT、Midjourney、Stable Diffusion以及Runway等多个领域。您可以在https://www.learnprompt.pro获取这些教程资源,它们完全免费并且 open-source。在这里,您可以学习到关于如何利用这些先进技术来提高您的创作能力和效率的实用技巧和策略。无论您是初学者还是经验丰富的创作者,这些教程都将为您提供宝贵的知识和指导,助您在数字创意领域取得更大的成功。
看看这周AIGC圈有没有你不愿意错过的新闻。StabilityAI最新的大家伙已经亮相了,VSCode Copilot也进行了重大升级,而ChatGPT则推出了自定义指令功能。此外,Meta Llama2也正式发布了。
Top News
1. Stability AI团队推出全新开源大型语言模型FreeWilly1和FreeWilly2
Stability AI的CarperAI团队研发出两款卓越的开源大型语言模型(LLMs),分别为FreeWilly1和FreeWilly2。这两款模型在多个评估标准下,在推理竞赛中展现了出色的表现。
FreeWilly1模型是在原始的LLaMA 65B基础模型之上,通过采用行业标准的Alpaca格式进行监督微调(SFT)过程而构建的。而FreeWilly2模型则基于LLaMA 2 70B基础模型,其在某些任务上的表现与GPT-3.5相当,展现了卓越的实力。
这两款模型都是研究实验,以非商业许可证发布。
2. VS Code引入GitHub Copilot新功能
GitHub Copilot作为一款革命性的编程辅助工具,近日在Visual Studio Code(简称VS Code)中推出了一系列实用的新功能,旨在提升开发者的工作效率和操作便捷度。
聊天会话移动:现在,你可以将聊天会话从侧边栏移动到编辑器空间,这为你提供了更多的操作空间。创建工作区:通过使用/createWorkspace命令,你可以要求Copilot为流行的项目类型创建工作区。Copilot首先会为你的请求生成一个目录结构,然后点击”Create Workspace”,它将创建建议的项目,包括文件、目录等。创建笔记本:通过/createNotebook命令,Copilot可以根据你的需求创建一个笔记本大纲。如果你喜欢这个大纲,点击”Create Notebook”就可以创建一个笔记本。正则表达式搜索:Copilot现在可以为你编写正则表达式搜索,这样你就可以找到你不确定如何找到的东西。可以查看/search命令。实时预览模式:编辑器聊天现在有了一个新的”livePreview”模式,使得在接受建议之前更容易直接对文档进行更改并修复错误。笔记本编辑器中的Copilot:在笔记本编辑器中使用Copilot,现在可以使用笔记本上下文提供更相关的建议。它甚至可以帮助处理单元格执行失败,并自动接受建议。自动实现建议:现在,你可以使用Copilot在进行PR审查时自动实现建议。这需要GitHub Pull Requests和Issues扩展。快速问题体验:有一个实验性的快速问题体验:使用聊天在不离开上下文的情况下提出快速的编程问题。Copilot聊天:最后,你不再需要Insiders才能使用Copilot聊天。如果你喜欢稳定版,那么它也可以正常工作。新闻链接:https://twitter.com/code/status/1682435342610079761
3. ChatGPT推出自定义指令功能
OpenAI正在推出一项新功能,让用户能够更好地控制ChatGPT的响应方式。这项名为“自定义指令”的功能,允许用户添加他们希望ChatGPT在生成响应时考虑的偏好或要求。
这项功能将在Plus计划中作为β版首次亮相,并在未来几周内对所有用户提供开放。例如,教师在制定课程计划时,无需再重复他们正在教授三年级的科学课程;对于那些偏爱高效代码的开发人员,只要他们首选的不是Python,我们就可以轻松理解他们的需求;同时,对于大家庭的购物清单,我们的模型能够考虑到其中的6种食物。
另外,指令的加入能有效提升用户在使用插件时的体验,它能够与插件共享相关数据。举例来说,假设用户在指令中填写了他们的所在城市,并且已经安装了一个能帮助他们预订餐厅的插件,那么在调用插件的过程中,模型可能会自动包含用户的所在城市信息。
在本文中,我们将探讨如何为ChatGPT设置自定义指令。通过为AI系统提供特定的指令,您可以更好地控制其行为并实现所需的功能。我们将在实践中展示如何为ChatGPT设置和使用这些指令。首先,要访问OpenAI的博客并了解有关自定义指令的更多信息,请点击以下链接:https://openai.com/blog/custom-instructions-for-chatgpt。在这里,您将找到关于如何设置和应用自定义指令的详细说明和示例。为了实际操作,让我们以一个简单的例子来说明如何为ChatGPT设置指令。假设我们想要创建一个AI系统,该系统可以回答有关天气的问题,并提供天气预报。为此,我们可以编写一个自定义指令,例如:“当北京天气晴朗时,返回温度和湿度信息。”为了实现这一目标,我们需要按照以下步骤操作:1. 使用OpenAI的API接口,连接到ChatGPT并发送指令。具体而言,我们需要使用“completions”参数来请求针对特定输入的回复。在此示例中,我们将输入设置为“北京天气晴朗”,并请求温度和湿度信息作为回复。2. 解析API响应并提取有关温度和湿度的信息。OpenAI将返回一个包含回复结果的JSON对象。我们需要从中提取与温度和湿度相关的数据,并将它们呈现给用户。3. 根据用户的反馈,调整指令并继续交互。用户可以提出其他问题或要求,我们可以根据需要调整指令并继续提供服务。总之,通过为ChatGPT设置自定义指令,我们可以更有效地控制其行为并实现所需的AI功能。OpenAI提供了详细的文档和示例,以帮助您开始使用自定义指令。请访问提供的链接,了解更多关于如何为ChatGPT设置和使用自定义指令的信息。
4. Meta发布Llama2!
Meta和Microsoft联合发布了Llama 2,这是Llama的下一代版本。
Llama 2的开源版本现已准备就绪,免费提供给研究和商业使用。包括预训练模型和对话微调版本的模型权重和起始代码。从今天开始,Llama 2在Azure AI模型目录中可用,使得使用Microsoft Azure的开发者可以使用它,并利用他们的云原生工具进行内容过滤和安全特性。它还优化了在Windows上本地运行,使开发者在为客户提供生成AI体验时有一个无缝的工作流程。Llama 2也可以通过Amazon Web Services (AWS)、Hugging Face和其他提供商获得。
新闻链接:https://ai.meta.com/llama/
新玩法 Geeks
1. AnyDoor:港大×阿里开发视觉任意门
阿里巴巴和香港大学的研究团队开发出了一种名为AnyDoor的AI工具,能够将物体无缝地“传送”到照片场景中,同时自动适应光线角度和透视。这个工具实现了零样本的图像嵌入,无需针对具体物品调整模型。有了它,网购衣服也可以直接看上身效果了。
AnyDoor一次能够传送多个物体,不仅如此,它还能移动图像里的已有物品。有网友看了之后赞叹到,或许接下来就会进化到(把物体传入到)视频了。
AnyDoor的工作流程大致如下:首先对包含目标物体的图像进行背景消除,然后进行自监督式的物体提取并转换成token。为了适应角度和光线的变化,除了提取物品的整体特征,还需要额外提取细节信息。最后一步就是将这些信息进行注入。
论文链接:https://arxiv.org/abs/2307.09481
新开发 Developers
1. LLM星座:15821个大模型的起源和发展
自2022年底以来,大型语言模型(LLMs)如ChatGPT和Bard等受到广大用户的关注。每周都有数百种新的LLMs问世并被上传到Hugging Face上。目前,该站点已上传了近16,000种文本生成模型。
对于这些涌入的LLMs,很多开发者和研究者都想知道哪些LLMs的骨架、设定、训练方法和类别将会成为未来。然而,目前还没有一个全面的LLMs索引。因此,有研究者利用Hugging Face LLMs相对系统的命名法,执行了层次聚类,并使用n-grams和词频-逆文档频率来识别LLMs之间的社区。这种方法成功地识别出LLMs的家族,并将LLMs准确地聚类到有意义的子组中。
它们为此提供了一个公开的Web应用程序——LLM Constellation(即LLM星座),让大家可以浏览和探索它们的LLMs图谱,它包括15,821种LLMs。Constellation能够快速生成各种可视化,包括树状图、图形、词云和散点图。
网站链接:https://llmconstellation.olafblitz.repl.co/
2. Prompt Diffusion:一种使扩散式生成模型具备上下文学习能力的AI框架
近年来,机器学习的进步推动了大型语言模型(LLMs)的发展,包括BERT、GPT-2、BART、T5、GPT-3和GPT-4等。这些模型在文本生成、机器翻译、情感分析和问答等任务中表现出色。他们的一种突出特性就是能够从上下文中学习。例如,像GPT-3这样具有上下文学习能力的LLMs可以通过在输入-输出样本和新的查询输入上进行条件化,完成任务,而无需优化任何模型参数。
然而,在计算机视觉领域中还很少有人应用上下文学习。微软和德克萨斯大学奥斯汀分校的研究人员提出了一种名为Prompt Diffusion的新模型架构,以实现在视觉-语言提示下进行上下文学习,能够处理各种视觉-语言任务。
Prompt Diffusion在六个不同的视觉-语言任务中进行了测试。他们使用视觉-语言提示来描述一个通用的视觉-语言任务,然后构建了Prompt Diffusion,它可以将视觉-语言提示作为输入。他们提出Prompt Diffusion作为启用文本引导的扩散模型进行上下文学习能力的第一步。然后,它可以使用这些知识来生成输出图像,通过将连接重新映射到查询图像,并包含语言指令。
更重要的是,跨多个任务的学习赋予了模型上下文学习的能力。Prompt Diffusion可以成功地泛化到多个新的、尚未观察到的任务。除了在训练期间看到的六个任务上表现良好外,Prompt Diffusion还在熟悉和新的、未见过的任务上进行了上下文学习,表现出色。
Github链接:https://github.com/Zhendong-Wang/Prompt-Diffusion
3. MLC-LLM:让大模型在手机上运行
最近,MLC-LLM(Machine Learning Compilation-Large Language Models)被引入,这是一个开放的框架,可以将LLMs直接带入CUDA、Vulkan和Metal等广泛的平台类别,并带有GPU加速。
MLC-LLM使语言模型能够在包括CPU和GPU在内的广泛硬件后端上本地部署。这意味着任何语言模型都可以在本地设备上运行,无需服务器或基于云的基础设施。MLC-LLM提供了一个高效的框架,允许开发者为他们自己的用例(如自然语言处理(NLP)或计算机视觉)优化模型性能。它甚至可以使用本地GPU进行加速,使得在个人设备上运行复杂模型成为可能。
MLC-LLM在其GitHub页面上提供了详细的使用指南,包括如何在iPhone、Windows、Linux、Mac和Web浏览器上本地运行LLMs和聊天机器人的具体指导。对于iPhone用户,MLC-LLM提供了一个可以通过TestFlight页面安装的iOS聊天应用。对于Windows、Linux和Mac用户,MLC-LLM提供了一个命令行界面(CLI)应用,用户可以在终端与机器人聊天。对于Web浏览器用户,MLC-LLM提供了一个名为WebLLM的配套项目,可以将模型本地部署到浏览器。
Github链接:https://github.com/mlc-ai/mlc-llm
4. Langchain发布LangSmith:Langchain官方调试平台
LangChain推出了一款名为LangSmith的新平台,旨在帮助开发者将LLM应用从原型转化为生产环境。
LangSmith提供了一个统一的系统,用于调试、测试、评估和监控LLM应用。它旨在帮助开发者构建和迭代能够利用LLM的强大功能并处理其复杂性的产品。
LangSmith的主要功能包括:
调试:LangSmith提供了模型输入和每个步骤链中事件的完全可视化,使团队能够轻松地实验新的链和提示模板,并找出产生意外结果、错误或延迟问题的源头。测试:LangSmith可以轻松创建数据集,然后轻松地在这些数据集上运行链和提示。评估:LangSmith与LangChain的开源评估模块无缝集成。这些模块有两种主要类型的评估:启发式和LLM。启发式评估将使用如正则表达式之类的逻辑来评估答案的正确性。LLM评估将使用LLM来评估自身。监控:开发者需要积极跟踪性能,并根据反馈优化性能。LangSmith可以帮助开发者跟踪应用的系统级性能(如延迟和成本)、跟踪模型/链性能(通过将反馈与运行关联起来)、调试问题(深入研究出错的特定运行)以及了解用户如何与应用互动以及他们的体验如何。统一的平台:LangSmith将这些产品领域的独特价值集成在一个完全集成的中心,从而为开发者提供了一个单一的、完全集成的中心来完成这项工作。网站链接:https://smith.langchain.com/
新思考 Thinkers
1. 一部完全由AI生成的电视剧,你会看吗?
旧金山初创公司Fable创造出能编写、制作、指导、动画制作甚至为全新电视节目配音的AI技术SHOW-1。首个试水作品:由AI完全编写、制作并配音的20分钟《南方公园》全新剧集。对于无法实现长篇创作和产生高质量内容的现有生成AI系统,以及正在面临编剧和演员罢工的好莱坞,这无疑是一场冲击,也对个性化、无限制的娱乐未来提供了可能。
这款名为SHOW-1的AI技术,成功地将几种AI模型整合到一起:包括用于编写的大型语言模型(LLMs)、自定义扩散模型用于图像创建,以及多智能体模拟用于故事进展和角色塑造。SHOW-1的技术实质上是将这些现有框架结合成一个统一的系统,令人兴奋的同时也带来了潜在的挑战。
对于行业来说,从业者的恐惧在于AI会迅速取代电视和电影领域的工作岗位,而有趣的是,影视制作公司期望的是,AI的作品能够达到现有IP的质量水平。
个性化的内容,也就是观众可以决定参数的内容,代表了娱乐行业的下一阶段可能的发展。也许在下一个十年,由于生成AI的支持,定制化、个性化、无限制的娱乐世界就会到来。
你是否觉得这是一件好事呢?
消息链接:https://www.reddit.com/comments/1554zd7
往期精彩
Langchain教程(第2期):平均十行代码,实现单/多轮对话&文本总结&联网版GPT
一口气开源大模型全学会EP1–90%情况下媲美ChatGPT的Vicuna家族(上)
精选插件和插件使用的进阶教程,解放GPT–4的最大生产力!第2期
AIGC交流群
「卡尔的AI沃茨」是一个中文AIGC学习社区,我们的开源课程https://www.learnprompt.pro/现已经支持ChatGPT,Midjourney,Runway,StableDiffusion四大热门项目。同时我们的网站中会不定时更新更多实用的使用技巧,好用不割韭菜的各类工具推荐及使用教学,后期我们还会更新AI相关的科普知识和自己动手做GPTApi应用。欢迎大家在这里交流AIGC未来各个场景落地的想法。目前大家可以扫码进入三群~
如果群二维码失效的话,也欢迎加我的号:carl_like_travel
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!