deephub

deephub

使用PyTorch实现L1,L2和ElasticNet正则化

在机器学习中，L1正则化、L2正则化和Elastic Net正则化是用来避免过拟合的技术，它们通过在损失函数中添加一个惩

2024-05-10 10:07
论文推荐：用多词元预测法提高模型效率与速度

这是4月发表的论文《Better Faster Large Language Models via Multi-tok

2024-05-09 10:06
号称能打败MLP的KAN到底行不行？数学核心原理全面解析

前几天火爆的Kolmogorov-Arnold Networks是具有开创性，目前整个人工智能社区都只关注一件事LLM。

2024-05-08 11:15
循环编码:时间序列中周期性特征的一种常用编码方式

在深度学习或神经网络中，"循环编码"（Cyclical Encoding）是一种编码技术，其特点是能够捕捉输入或特征中的

2024-05-07 10:48
LSTM时间序列预测中的一个常见错误以及如何修正

当使用LSTM进行时间序列预测时，人们容易陷入一个常见的陷阱。为了解释这个问题，我们需要先回顾一下回归器和预测器是如何工

2024-05-06 10:23
LLM2Vec介绍和将Llama3转换为嵌入模型代码示例

嵌入模型是大型语言模型检索增强生成(RAG)的关键组成部分。它们对知识库和用户编写的查询进行编码。使用与LLM相同领域的

2024-05-05 12:18
BiTCN：基于卷积网络的多元时间序列预测

在时间序列预测领域中，模型的体系结构通常依赖于多层感知器(MLP)或Transformer体系结构。基于mlp的模型，如

2024-05-04 10:47
整合文本和知识图谱嵌入提升RAG的性能

我们以前的文章中介绍过将知识图谱与RAG结合的示例，在本篇文章中我们将文本和知识图谱结合，来提升我们RAG的性能文本嵌入

2024-05-03 10:09
Gradformer:通过图结构归纳偏差提升自注意力机制的图Transformer

这是4月刚刚发布在arxiv上的论文，介绍了一种名为“Gradformer”的新型图Transformer，它在自注意力

2024-05-02 09:45
10个使用NumPy就可以进行的图像处理步骤

图像处理是一种数学计算。数字图像由称为像素的彩色小点组成。每个像素由红、绿、蓝(RGB)三个独立的颜色组成。每个像素中的

2024-05-01 10:05
贝叶斯推理导论：如何在‘任何试验之前绝对一无所知’的情况下计算概率

从左至右依次为托马斯·贝叶斯、皮埃尔-西蒙·拉普拉斯和哈罗德·杰弗里斯——逆概率(即现在所说的客观贝叶斯分析)发展中的关

2024-04-30 12:24
如何准确的估计llm推理和微调的内存消耗

Command-R+， Mixtral-8x22b和Llama 3 70b都在最近的几周内发布了，这些模型是巨大的。它们

2024-04-29 10:36
通过学习曲线识别过拟合和欠拟合

本文将介绍如何通过学习曲线来有效识别机器学习模型中的过拟合和欠拟合。欠拟合和过拟合1、过拟合如果一个模型对数据进行了过度

2024-04-28 15:44
2024年4月计算机视觉论文推荐

本文将整理4月发表的计算机视觉的重要论文，重点介绍了计算机视觉领域的最新研究和进展，包括图像识别、视觉模型优化、生成对抗

2024-04-27 11:24
开源向量数据库比较：Chroma,Milvus,Faiss,Weaviate

语义搜索和检索增强生成(RAG)正在彻底改变我们的在线交互方式。实现这些突破性进展的支柱就是向量数据库。选择正确的向量数

2024-04-25 10:27
微软推出小模型Phi-3，3.8亿参数能Mixtral8x7B和GPT-3.5相媲美，并且量化后还可直接在IPhone中运行

Phi-3系列Phi-3是一系列先进的语言模型，专注于在保持足够紧凑以便在移动设备上部署的同时，实现高性能。Phi-3系

2024-04-24 12:08
Barnes-Hutt-SNE:大规模数据的高效降维算法

在数据科学和分析中，理解高维数据集中的底层模式是至关重要的。t-SNE已成为高维数据可视化的有力工具。它通过将数据投射到

2024-04-23 10:22
5种搭建LLM服务的方法和代码示例

在不断发展的大型语言模型（LLMs）领域中，用于支持这些模型的工具和技术正以与模型本身一样快的速度进步。在这篇文章中，我

2024-04-22 10:57
使用ORPO微调Llama3

ORPO是一种新的微调技术，它将传统的监督微调和偏好对齐阶段结合到一个过程中。减少了训练所需的计算资源和时间。论文的实证

2024-04-21 10:01
掌握时间序列特征工程：常用特征总结与Feature-engine的应用

时间序列数据的特征工程是一种技术，用于从时间序列数据中提取信息或构造特征，这些特征可用于提高机器学习模型的性能。以下是一

2024-04-20 10:12

签名：提供专业的人工智能知识，包括CV NLP 数据挖掘等