OpenAI 推出了适用于 iOS 的 ChatGPT 应用程序。ChatGPT 应用程序可免费使用并跨设备同步你的历史记录,它还集成了OpenAI 的开源语音识别系统Whisper ,支持语音输入。ChatGPT Plus 订阅者可以独家访问GPT-4 的功能、提前访问功能和更快的响应时间,所有这些都在 iOS 上。
使用Codey,一系列构建在PaLM 2上的代码模型,Colab将很快添加AI编码功能,例如代码补全、自然语言生成代码和代码辅助聊天机器人。此外,用于驱动Colab的Codey版本还特别定制了Python和Colab特定的用途。
谷歌云介绍了增强了 AI 功能的新医疗研究产品。主要提供包括医疗自然语言API,用于从非结构化文本中提取医学信息,以及面向医疗保健的自动化机器学习实体提取。这些工具将简化从复杂医疗数据中获取洞见的过程,有可能实现更精确和及时的患者护理。
谷歌已批准几个与广告相关的 AI 项目,以帮助广告商和YouTube创作者,内部文件显示。
亚马逊推出了更新的Echo设备系列,并承诺将ChatGPT式的 AI 引入基于Alexa的设备。
虽然许多科技公司都在努力将 AI 添加到他们的移动设备中,但高昂的计算成本仍然是一个重要的障碍。这篇文章探讨了这个问题,并提出了一些解决方案来应对这个挑战。
Zoom将投资Anthropic,并在一些内部和外部的AI产品中使用Claude。具体的交易细节没有公开。
OpenAI CEO Sam Altman在参议院听证会上的发言,他敦促立法者在 AI 领域进行监管,并将当前 AI 的繁荣期描述为一种潜在的“印刷机时刻”,但需要安全保障。
尽管谷歌最近的一份内部备忘录表明,谷歌和 OpenAI 都无法围绕大规模 AI 模型建立可持续的商业模式,但也有相反的观点。像 GPT-4 这样的高质量 AI 模型虽然看起来容易创建,但实际上是复杂而难以构建的,而 OpenAI 的独特方法,包括通过人类反馈进行强化学习和数据过滤,提供了显著的优势。此外,OpenAI 通过 ChatGPT 和 OpenAI API 的“最后一公里”交付以及强大的品牌,使公司的产品更难被击败。这些因素,再加上 OpenAI 在 B2B 和 B2C 领域快速实现产品市场适应,表明该公司在 AI 市场上的地位比备忘录所示的更具有防御性。
OpenAI即将推出一个新的开源语言模型。该公司不太可能发布一个与其自己的GPT竞争的模型。生成式AI的增长潜力引起了硅谷投资者的关注。微软今年早些时候对OpenAI进行了数十亿美元的投资,为与谷歌更多的竞争做好了准备。
亚马逊最近发布了一份招聘启事,描述了它如何通过新的交互式对话式体验重新构想亚马逊搜索。新的搜索将具有产品比较和个性化建议等功能。对话式购物功能的详细信息尚未正式公布。聊天机器人的发布日期尚未确定,但可能很快就会发布。
Arstechnica 报道称,谷歌正在准备对抗越来越普遍的 AI 生成虚假内容。随着深度伪造和其他形式的操纵内容变得越来越复杂,这家科技巨头正在开发新工具来识别和标记这些内容。它计划在其各个平台上实施这些措施,以确保内容的真实性,并保护用户免受错误信息的影响。谷歌的方法将涉及技术,如 AI 算法,以及用户教育。
Poe API 允许任何人在 LLM 之上构建基于聊天的服务,轻松吸引世界各地的大量受众,而无需构建自己的用户界面。
本文包含对Sundar的采访记录,他在采访中讨论了搜索,谷歌和Alphabet AI 团队的重组,他对谷歌未来的愿景以及推动其增长的因素等等。
Firefox与谷歌的合同即将到期,微软希望浏览器将Bing作为默认搜索引擎。苹果与谷歌的默认浏览器合同将于明年到期,这为微软提供了一个机会,让Bing成为Safari的默认浏览器。微软看到了这种合作伙伴关系的潜力,可以提高Bing的使用量。这些交易可能无法保证必应的使用量增加。
OpenAI将在本周内向所有ChatGPT Plus用户推出网页浏览和插件!从alpha版本转为beta版本后,ChatGPT可以访问互联网,并使用70多个第三方插件。
Stability SDK发布,允许用户使用稳定的扩散模型创建动画。您可以无条件地生成这些动画、在图像中调节或以视频为条件。结果很可爱,计算成本很高,并且具有非常独特的风格。
Anthropic的Claude模型现在可以在更长的背景下运行。这意味着您的组织可以将完整的文档放入模型中,语言模型将对其进行操作。他们举了一个例子,将 240 页的编码文档输入到 Claude 中,并让它回答编码问题。
Meta 宣布为广告商提供 AI 沙盒,帮助他们创建替代副本、通过文本提示生成背景以及为 Facebook 或 Instagram 广告裁剪图像。
谷歌的新大型语言模型PaLM 2使用了几乎比其2022年的前身多五倍的训练数据,使其能够执行更高级的编码、数学和创意写作任务。
GGML是在CPU上运行4位量化模型的框架。这意味着你可以在本地计算机上运行非常大的模型。StarCoder是最好的开源程序合成模型之一。在具有挑战性的OpenAI人工评估基准测试中表现非常出色。此拉取请求将该模型添加到GGML框架中,这意味着你可以在普通硬件上运行StarCoder。
DarkBERT是一种新的 AI ,专门针对暗网中使用的独特语言进行训练,该语言与常规互联网上的语言有所不同。通过与其他 AI 进行比较并研究各种应用案例,我们发现DarkBERT更擅长理解和处理暗网文本,使其成为未来在该领域进行研究的有用工具。
符号调整是一种新的训练 AI 的方法,其中我们用随机符号(如“foo”或“bar”)替代常规语言标签(如“正面”或“负面”),迫使 AI 从输入和标签之间的联系中学习。这种方法可以提高 AI 在新任务上的性能,帮助其更好地理解指令,并使其在逻辑推理任务上更加熟练,在不同的基准测试中都有明显的改进。
无边DAS是我们开发的一种新方法,通过寻找其行为中可理解的模式,更好地理解大型 AI 模型(如Alpaca)的工作原理。我们发现,无论输入或指令是什么,Alpaca都通过使用两个可理解的变量以一致的方式解决了一个简单的数字问题,这是理解这些复杂 AI 模型工作原理的重要一步。
文章讲述了一个有趣的研究,即使用一个Transformer块可以生成连贯、新颖且语法正确的故事。通过限制词汇表和精心构建训练数据集,这种小型模型可以达到比较好的性能。虽然目前大型模型的性能更好,但这个研究表明即使使用小型模型也可以生成高质量的文本。
介绍了一项新概念——多模态泛化,它关注的是系统如何在某些数据源受限或缺失的情况下进行适应。为了研究这一概念,研究人员创建了一个名为MMG-Ego4D的新数据集,并开发了新的方法来提高系统的泛化能力,这可能指导未来在这一领域的研究。
新技术SuperICL可以通过与小型本地模型合作来帮助大型AI模型更好地学习。这种方法不仅可以提高这些大型AI模型在任务上的性能,还可以提高它们的稳定性和小型模型的能力,例如理解不同的语言和解释其决策。
Guidance是一个GitHub仓库,能够比传统的提示或链接更有效地控制现代语言模型。在这个仓库中,你可以找到用于快速设置和运行Guidance的示例和文档,并可以使用它来创建更好的预测和生成更优质的文本。
RWKV模型,这是一个具有内置循环的线性注意模型,是一个快速运行的强大语言模型,可以理论上具有长上下文窗口。这个模型是基于Transformers库的第一个RNN模型。该模型的开发团队有一个活跃的discord社区,现在在HuggingFace平台上更加可见。
OpenAI 利用一个多样化的人员组合,称为“红队”,对 GPT-4 进行“对抗性测试”。
Transformer 并非真正的端到端模型。分词器有单独的训练过程,这很奇怪,通常会导致一般性能不佳。然而,如果我们尝试在字节上进行简单的训练,由于序列长度的增加,很快就会耗尽上下文长度。此外,对于真正的多模态问题,直接在字节上进行训练会移除复杂的补丁和标记化方案。这项工作允许模型直接在字节上进行训练,并支持长度达到一百万字节的序列。也许这甚至会对稀有单词的核心采样有所帮助!
AI 安全的一个目标是可扩展的监督,希望发现在不需要昂贵的人类干预的情况下引导语言模型生成的方法。本文中的所有想法并不新颖,回顾了软提示的概念,但是这是一个有趣的扩展。他们发现,通过为简单的想法添加激活向量,可以将生成引导到这些想法。
视觉问答在过去几个月中得到了广泛的采用和快速的发展。这在很大程度上得益于预训练模型,如 Blip 和 clip。应用这些模型到视频中具有挑战性,因为计算要求大大增加。这项工作介绍了一系列不同的模型,通过在不同的时间尺度上运行,显著提高了这些系统的鲁棒性。他们使用 Blip2,并获得了强大的性能表现。
NFL 是一种利用 LiDAR 数据(一种使用激光测量距离的方法)并从新视点创建逼线D 场景的新方法。这种技术比其他方法更好,可以帮助改善诸如地图制作和理解我们周围环境等任务。
EfficientViT,它将快速处理与改进的准确性相结合。通过重新设计 Transformer 模型的某些部分,他们能够显著减少与数据重塑和执行逐元素函数相关的计算成本。实验表明,EfficientViT 胜过其他高效的模型,在保持卓越的处理速度的同时实现更高的准确性,甚至超过了 MobileNetV3。
这篇 Medium 文章提供了对 Meta 的 AI 模型 ImageBind 的深入分析。ImageBind 是一个多模态 AI 模型,可以从文本描述中生成图像,反之亦然。它是在各种各样的互联网文本和图像上进行训练的。虽然 ImageBind 的准确性和多功能性受到称赞,但文章也承认该模型偶尔会产生无关或不准确的结果。
Eric Hartford 的博客文章探讨了未经审查的 AI 模型的影响,并认为 AI 审查可能会让我们走上一条危险的道路。他主张开发更好的系统来管理输出,而不是压制它们。他提到需要更多的研究和对 AI 使用伦理问题的对话,并提出了一个多利益相关者治理模型的想法。
通用视觉语言模型Blip是由Salesforce开发的一个模型,可用于视觉和语言任务。按照语言模型中调整它们以遵循指令的工作线,我们还可以调整这些视觉语言模型以遵循指令。这极大地提高了性能,在这种情况下,它甚至超过了 GPT-4 的已发布数量。
本文讨论了谷歌引入一种新的生成式AI模型Codey,旨在帮助程序员编写代码。Codey 是一种代码生成模型,可以为用户提供建议、识别错误,甚至完成整个代码块。它旨在通过帮助用户快速有效地找到解决方案来简化编码过程并提高开发人员的工作效率。
缩放定律表明,随着更多数据和计算能力的增加,大型语言模型(LLM)在预测单词方面将变得更好。但是,虽然增加数据集大小可能是可行的,但要使它们比当前状态大 10 倍以上,则存在潜在的障碍,例如成本。使用现有技术将LLM扩展到最大潜力的成本将远远高于地球的GDP。可能存在计算限制。由于用于拟合模型的数据和计算量很少,当前的缩放定律可能不准确。
全面介绍快速注入,这是 AI 领域使用的一个术语,用于描述故意将特定输入插入 AI 模型以获得所需输出的做法,包括为什么这是一个重要问题以及为什么许多提出的解决方案不会有效。
已经创建了一种新技术,该技术使用预设的文本到图像模型来提高模糊图像的质量。该方法巧妙地使用了专用编码器,无需更改现有的图像制作模型,节省了训练时间。此外,用户可以通过简单的调整来控制图像质量。该策略还比以前的方法更好地处理较大的图像。人工和真实世界图像的测试证明它比当前的解决方案更有效。
检测场景中的对象时,通常从一组预定义的类中提取。此外,询问有关场景的问题也具有挑战性。在这种情况下,我们可以使用强大的语言模型(Vicuna)和指令调谐的检测器来推理查询并因此检测对象。
现代 ML 需要跨许多硬件加速器(如 GPU)进行计算。在代码中做到这一点是很棘手的。Jax在许多实验性功能方面一直处于领先地位。Shmap是一系列创新中的另一项。它功能强大,可以轻松实施现代算法和可扩展的训练。
语言模型使用检索来获取最新信息或不适合上下文的信息。这种前瞻性检索使用谷歌搜索API和来自Open AI的大型语言模型来构建强大的检索问答系统。
Cohere是一家初创公司,提供类似于其他大玩家的语言模型API,它们具有一组可用于构建应用程序的强大模型。这所语言模型大学旨在让您快速了解现代语言模型,并展示如何使用 Cohere 的工具构建它们。
本文介绍了一种基于草图和文本使用 AI (AI) 制作视频内容的新方法。该方法结合了两种称为文本到视频零点和ControlNet的技术,可以创建高质量,一致的视频,与用户的意图非常匹配,正如各种实验所证明的那样。
本文介绍了一种使用扩散模型的方法,该方法已成功创建图像,仅从一张图像重建3D面部特征。该过程涉及使用面部纹理数据集,模拟各种照明条件,然后使用扩散模型填充纹理的缺失部分和未知的反射属性,从而产生更准确和一致的3D面部。
本文是对新兴的文本转3D领域的全面调查,该领域是将书面描述转换为3D模型的生成AI的一部分。它介绍了不同类型的3D数据,基础技术,以及它们在最近的作品中的组合方式,以及如何在各种应用程序中使用文本到3D,例如创建头像和生成场景。
VideoChat,这是一个通过结合 AI 技术来理解视频和语言来理解视频的系统。研究人员还创建了大量带有详细描述和对话的视频,以帮助训练系统更好地理解视频中的事件顺序和因果关系。
Metaphor Systems是目前唯一一个由语言模型完全驱动的互联网规模神经搜索引擎。这个集成允许你使用该系统作为Langchain模型的检索后端,从而提高模型的搜索效率和精度。
Nexus是第一个拥有跨平台(LinkedIn、电子邮件等)所有关系上下文的AI导航器。完美的个性化重新连接电子邮件、嘉宾名单、礼物推荐等只需要一个简单的问题即可完成。
Databerry.ai 帮助你构建 ChatGPT 插件,以连接自定义数据到 ChatGPT。与你的数据交流,利用插件商店吸引用户并提高品牌知名度,并获得有关用户与插件交互的见解和统计信息。
开源高性能 Llama 模型的完整训练代码,包括从预训练到 RLHF 的全过程。
EVA 旨在支持使用深度学习模型对结构化(表格、特征向量)和非结构化数据(视频、播客、PDF 等)进行操作的数据库应用程序。
Metabob 是一种 AI 代码审查工具,通过帮助用户自动检测、理解和解决隐藏在代码中的复杂问题来加快代码调试速度。Metabob理解代码上下文的能力增强了其检测能力!
OpenAI告诉一家向华盛顿游说者和政策倡导者提供数据的领先公司,他们不能在政治中使用ChatGPT进行广告宣传。
随着科技行业在招聘方面的冷静,其他几个行业迅速吸纳了美国境内超过14.1万人的被解雇的科技工作者中的一部分——超过一半的人在2023年在科技行业之外找到了工作。
名为Everything Robotics Learning Resources的GitHub仓库,收集了大量机器人学习资源的集合。无论你是初学者、专家还是从业者,这个仓库都包含了规划、控制、感知等方面的资源,是一个很好的学习和参考资料。
CNET记者正在推动工会化,寻求在技术新闻公司包括 AI 使用在内的问题上发表正式意见。这个行动旨在为记者提供更多的权力和保护,以确保他们的利益得到充分尊重和维护。
欧盟修订后的AI 法案将禁止美国公司向未经许可的生成AI 模型提供API访问,可能被罚款20,000,000欧元或全球收入的4%。
Prompt 工程是一种非正式且困难的过程。对提示进行微小的更改可能会导致模型输出的巨大变化,很难(甚至在某些情况下是不可能的)知道更改提示会产生的影响,提示行为高度依赖于所使用的模型类型。
许多开源 AI 热潮都是建立在大型科技公司的研究之上。例如,许多头条新闻制作模型都是建立在 LLaMA 之上的,LLaMA 是 Meta AI 发布的开源大语言模型。如果这些公司决定停止向公众发布他们的模型,那么与闭源 AI 相比,开源 AI 社区可能会崩溃。对于开源AI社区来说,这是一个关键时刻,可以找到使每个人都更容易使用AI的方法。
Will.i.am是典型的21世纪文艺复兴人物:一个强大的音乐家、制作人、技术专家、企业家和慈善家。他作为独唱艺术家和黑眼豆豆乐队的联合创始人建立了一个多白金的职业生涯,赢得了七项格莱美奖,并以将不同文化和音乐风格融合在一起的创新者的身份受到称赞。近年来,他在推广机器人技术、人工智能和科技方面的工作也越来越为人所知。
尽管像ChatGPT这样的AI模型具有非凡的功能,但它们确实存在局限性。特别是,他们缺乏常识推理,无法理解他们正在处理的直接文本之外的上下文。这种无能为力会导致荒谬、不一致或有偏见的反应。这是由于训练方法,它涉及从大量文本数据中学习,但不包括对世界的理解或推理世界的能力。研究人员正在探索改进 AI 这些方面的方法,但仍然存在重大挑战。
随着全球立法者试图了解如何监管快速发展的 AI 技术,微软首席经济学家迈克尔·施瓦茨(Michael Schwarz)今天在世界经济论坛增长峰会上告诉与会者,“在我们看到一些有意义的伤害之前,我们不应该监管 AI ,而不是想象中的场景。
欧洲立法者更接近通过规范ChatGPT等 AI 工具的新规则。欧盟备受期待的 AI 法案将成为第一个管理该技术的全面立法,围绕面部识别、生物识别监控和其他 AI 应用的使用制定了新规则。
在本文中,Ted Chong深入探讨了 AI 在经济中的未来问题,特别是它对劳动力的潜在负面影响。
本活动招募由 Sota.ai 加速器发起,将围绕 AIGC 的技术前沿与产业落地,举办一系列线上与线下 Meetup 活动,现诚挚邀一批分享嘉宾参与到活动议题中来,招募信息如下: