日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

Genai技術棧架構指南—十個工具,你知道哪個?

來源: 責編: 時間:2024-06-05 17:34:49 227觀看
導讀現代數據湖參考架構中可以找到的這 10 項功能,以及每個功能的供應商工具和庫。譯自The Architect’s Guide to the GenAI Tech Stack — 10 Tools,作者 Keith Pijanowski。我之前寫過關于現代數據湖參考架構,解決了每個

現代數據湖參考架構中可以找到的這 10 項功能,以及每個功能的供應商工具和庫。Sxk28資訊網——每日最新資訊28at.com

譯自The Architect’s Guide to the GenAI Tech Stack — 10 Tools,作者 Keith Pijanowski。Sxk28資訊網——每日最新資訊28at.com

我之前寫過關于現代數據湖參考架構,解決了每個企業面臨的挑戰 — 更多數據、老化的 Hadoop 工具(特別是 HDFS)以及對 RESTful API(S3)和性能的更大需求 — 但我想填補一些空白。Sxk28資訊網——每日最新資訊28at.com

現代數據湖,有時稱為數據湖倉,一半是數據湖,一半是基于開放表格式規范 (OTF) 的數據倉庫。兩者都建立在現代對象存儲之上。Sxk28資訊網——每日最新資訊28at.com

同時,我們深入思考了組織如何構建 AI 數據基礎設施,以支持所有 AI/ML 需求 — 不僅僅是訓練集、驗證集和測試集的原始存儲。換句話說,它應該包含訓練大型語言模型、MLOps 工具、分布式訓練等所需的計算能力。Sxk28資訊網——每日最新資訊28at.com

基于這一思路,我們撰寫了另一篇關于如何使用現代數據湖參考架構來支持 AI/ML需求的論文。下圖展示了現代數據湖參考架構,其中突出了生成式 AI 所需的功能。Sxk28資訊網——每日最新資訊28at.com

Sxk28資訊網——每日最新資訊28at.com

來源:現代數據湖中的 AI/ML來源:現代數據湖中的 AI/MLSxk28資訊網——每日最新資訊28at.com

這兩篇論文都沒有提到特定的供應商或工具。我現在想討論構建現代數據湖所需的供應商和工具。在這個前 10 名單中,每個條目都是支持生成式 AI 所需的功能。Sxk28資訊網——每日最新資訊28at.com

1. 數據湖

企業數據湖建立在對象存儲之上。不是你老式的基于設備的對象存儲,它服務于廉價且深入的歸檔用例,而是現代的、高性能的、軟件定義的和 Kubernetes 原生的對象存儲,這是現代 GenAI 堆棧的基石。它們可用作服務(AWS,MicrosoftAzure)或本地或混合/兩者,例如 MinIO。Sxk28資訊網——每日最新資訊28at.com

這些數據湖必須支持流式工作負載,必須具有高效的加密和糾刪碼,需要以原子方式將元數據與對象一起存儲,并支持 Lambda 計算等技術。鑒于這些現代替代方案是云原生的,它們將與其他云原生技術的整個堆棧集成 — 從防火墻到可觀察性再到用戶和訪問管理 — 開箱即用。Sxk28資訊網——每日最新資訊28at.com

2. 基于 OTF 的數據倉庫

對象存儲也是基于 OTF 的數據倉庫的基礎存儲解決方案。將對象存儲用于數據倉庫聽起來可能很奇怪,但以這種方式構建的數據倉庫代表了下一代數據倉庫。這得益于 Netflix、Uber 和 Databricks 編寫的 OTF 規范,它使在數據倉庫中無縫使用對象存儲成為可能。Sxk28資訊網——每日最新資訊28at.com

OTF — Apache Iceberg、Apache Hudi 和 Delta Lake — 的編寫是因為市場上沒有能夠滿足創建者數據需求的產品。從本質上講,它們(以不同的方式)所做的就是定義一個可以構建在對象存儲之上的數據倉庫。對象存儲提供了其他存儲解決方案無法提供的可擴展容量和高性能的組合。Sxk28資訊網——每日最新資訊28at.com

由于這些是現代規范,因此它們具有舊式數據倉庫所沒有的高級功能,例如分區演進、模式演進和零拷貝分支。Sxk28資訊網——每日最新資訊28at.com

可以在 MinIO 上運行其基于 OTF 的數據倉庫的兩個 MinIO 合作伙伴是 Dremio 和 Starburst。Sxk28資訊網——每日最新資訊28at.com

  • Dremio Sonar(數據倉庫處理引擎)
  • Dremio Arctic(數據倉庫目錄)
  • 開放數據湖倉 | Starburst(目錄和處理引擎)

3. 機器學習運維 (MLOps)

MLOps 對機器學習來說就像 DevOps 對傳統軟件開發一樣。兩者都是旨在改善工程團隊(開發或機器學習)和 IT 運維(運維)團隊之間協作的一組實踐和原則。目標是使用自動化簡化開發生命周期,從規劃和開發到部署和運維。這些方法的主要好處之一是持續改進。Sxk28資訊網——每日最新資訊28at.com

MLOps 技術和功能不斷發展。您需要一個由主要參與者支持的工具,以確保該工具不斷開發和改進,并提供長期支持。這些工具中的每一個都在底層使用 MinIO 來存儲模型生命周期中使用的工件。Sxk28資訊網——每日最新資訊28at.com

  • MLRun (Iguazio, acquired by McKinsey & Company)
  • MLflow (Databricks)
  • Kubeflow (Google)

4. 機器學習框架

您的機器學習框架是您用來創建模型并編寫訓練它們代碼的庫(通常用于 Python)。這些庫功能豐富,因為它們提供了一系列不同的損失函數、優化器、數據轉換工具和神經網絡的預構建層。這兩個庫提供的最重要的功能是張量。張量是可以移動到 GPU 上的多維數組。它們還具有自動微分,用于模型訓練。Sxk28資訊網——每日最新資訊28at.com

當今最流行的兩個機器學習框架是 PyTorch(來自 Facebook)和 Tensorflow(來自 Google)。Sxk28資訊網——每日最新資訊28at.com

  • PyTorch
  • TensorFlow

5. 分布式訓練

分布式模型訓練是在多個計算設備或節點上同時訓練機器學習模型的過程。這種方法可以加快訓練過程,尤其是在需要大型數據集來訓練復雜模型時。Sxk28資訊網——每日最新資訊28at.com

在分布式模型訓練中,數據集被分成較小的子集,每個子集由不同的節點并行處理。這些節點可以是集群中的各個機器、各個進程或 Kubernetes 集群中的各個 Pod。它們可能可以訪問 GPU。每個節點獨立處理其數據子集并相應地更新模型參數。以下五個庫使開發人員免受分布式訓練的大部分復雜性影響。如果您沒有集群,可以在本地運行它們,但您需要一個集群才能看到訓練時間顯著減少。Sxk28資訊網——每日最新資訊28at.com

  • DeepSpeed(來自 Microsoft)
  • Horovod(來自 Uber)
  • Ray(來自 Anyscale)
  • Spark PyTorch Distributor(來自 Databricks)
  • Spark TensorFlow Distributor(來自 Databricks)

6. 模型中心

模型中心實際上并不是現代數據湖參考架構的一部分,但我還是將其包括在內,因為它對于快速入門生成式 AI 非常重要。Hugging Face 已成為獲取大型語言模型的去處。Hugging Face 托管著一個模型中心,工程師可以在其中下載預訓練模型并分享他們自己創建的模型。Hugging Face 也是 Transformers 和 Datasets 庫的作者,這些庫與大型語言模型 (LLM) 及用于訓練和微調它們的數據配合使用。Sxk28資訊網——每日最新資訊28at.com

還有其他模型中心。所有主要的云供應商都有一些上傳和共享模型的方法,但 Hugging Face 憑借其模型和庫集合已成為該領域的領導者。Sxk28資訊網——每日最新資訊28at.com

  • Hugging Face

7. 應用程序框架

應用程序框架有助于將 LLM 納入應用程序。使用 LLM 與使用標準 API 不同。必須做大量工作才能將用戶請求轉換為 LLM 可以理解和處理的內容。例如,如果您構建了一個聊天應用程序,并且您想使用檢索增強生成 (RAG),那么您需要對請求進行標記化,將標記轉換為向量,與向量數據庫(如下所述)集成,創建一個提示,然后調用您的 LLM。生成式 AI 的應用程序框架將允許您將這些操作鏈接在一起。Sxk28資訊網——每日最新資訊28at.com

當今使用最廣泛的應用程序框架是 LangChain。它與其他技術集成,例如 Hugging Face Transformer 庫和 Unstructured 的文檔處理庫。它功能豐富,使用起來可能有點復雜,因此下面列出了一些替代方案,供那些沒有復雜要求且希望比 LangChain 更簡單的東西的人使用。Sxk28資訊網——每日最新資訊28at.com

  • LangChain
  • AgentGPT
  • Auto-GPT
  • BabyAGI
  • Flowise
  • GradientJ
  • LlamaIndex
  • Langdock
  • TensorFlow (Keras API)

8. 文檔處理

大多數組織沒有一個包含干凈準確文檔的單一存儲庫。相反,文檔分散在組織的各個團隊門戶中,采用多種格式。為生成式 AI 做準備時的第一步是構建一個流水線,該流水線僅獲取已批準與生成式 AI 一起使用的文檔,并將它們放入您的向量數據庫中。對于大型全球組織來說,這可能是生成式 AI 解決方案最困難的任務。Sxk28資訊網——每日最新資訊28at.com

Sxk28資訊網——每日最新資訊28at.com

圖片圖片Sxk28資訊網——每日最新資訊28at.com

Sxk28資訊網——每日最新資訊28at.com

文檔流水線應將文檔轉換為文本,對文檔進行分塊,并將分塊文本通過嵌入模型運行,以便可以將它的向量表示保存到向量數據庫中。幸運的是,一些開源庫可以針對許多常見文檔格式執行此操作。下面列出了一些庫。這些庫可以與 LangChain 一起使用來構建完整的文檔處理流水線。Sxk28資訊網——每日最新資訊28at.com

  • Unstructured
  • Open-Parse

9. 向量數據庫

向量數據庫促進了語義搜索。理解如何做到這一點需要大量的數學背景,并且很復雜。然而,語義搜索在概念上很容易理解。假設您想找到所有討論與“人工智能”相關的任何內容的文檔。要在傳統數據庫上執行此操作,您需要搜索“人工智能”的所有可能的縮寫、同義詞和相關術語。您的查詢看起來像這樣:Sxk28資訊網——每日最新資訊28at.com

SELECT snippetFROM MyCorpusTableWHERE (text like '%artificial intelligence%' OR	text like '%ai%' OR	text like '%machine learning%' OR	text like '%ml%' OR 	... and on and on ...

這種手動相似性搜索不僅艱巨且容易出錯,而且搜索本身也非常緩慢。向量數據庫可以接受如下請求,并更快、更準確地運行查詢。如果您希望使用檢索增強生成,那么快速準確地運行語義查詢的能力非常重要。Sxk28資訊網——每日最新資訊28at.com

{Get {	MyCorpusTable(nearText: {concepts: ["artificial intelligence"]})       {snippet}    }}

下面列出了四個流行的向量數據庫:Sxk28資訊網——每日最新資訊28at.com

  • Milvus
  • Pgvector
  • Pinecone
  • Weaviate

10. 數據探索和可視化

擁有允許您整理數據并以不同方式對其進行可視化的工具始終是一個好主意。下面列出的 Python 庫提供了數據處理和可視化功能。這些看起來像是您僅在傳統 AI 中需要的工具,但它們在生成式 AI 中也很有用。例如,如果您正在進行情緒分析或情感檢測,那么您應該檢查您的訓練、驗證和測試集,以確保您在所有類別中都有適當的分布。Sxk28資訊網——每日最新資訊28at.com

  • Pandas
  • Matplotlib
  • Seaborn
  • Streamlit

結論

您已經了解了十種功能,這些功能可以在現代數據湖參考架構中找到,以及針對每種功能的具體供應商產品和庫。下面是一個總結這些工具的表格:Sxk28資訊網——每日最新資訊28at.com

技術領域
Sxk28資訊網——每日最新資訊28at.com

工具
Sxk28資訊網——每日最新資訊28at.com

數據湖
Sxk28資訊網——每日最新資訊28at.com

MinIO, AWS, GCP, Azure
Sxk28資訊網——每日最新資訊28at.com

基于 OTF 的數據倉庫
Sxk28資訊網——每日最新資訊28at.com

Dremio
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Dremio Sonar
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Dremio Arctic
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Starburst
Sxk28資訊網——每日最新資訊28at.com

開放式數據倉庫
Sxk28資訊網——每日最新資訊28at.com

Starburst
Sxk28資訊網——每日最新資訊28at.com

機器學習框架
Sxk28資訊網——每日最新資訊28at.com

PyTorch
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

TensorFlow
Sxk28資訊網——每日最新資訊28at.com

機器學習運維
Sxk28資訊網——每日最新資訊28at.com

MLRun (麥肯錫公司)
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

MLflow (Databricks)
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Kubeflow (谷歌)
Sxk28資訊網——每日最新資訊28at.com

分布式訓練
Sxk28資訊網——每日最新資訊28at.com

DeepSpeed (微軟)
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Horovod (優步)
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Ray (Anyscale)
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Spark PyTorch Distributor (Databricks)
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Spark Tensoflow Distributor (Databricks)
Sxk28資訊網——每日最新資訊28at.com

模型倉庫
Sxk28資訊網——每日最新資訊28at.com

Hugging Face
Sxk28資訊網——每日最新資訊28at.com

應用框架
Sxk28資訊網——每日最新資訊28at.com

LangChain
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

AgentGPT
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Auto-GPT
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

BabyAGI
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Flowise
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

GradientJ
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

LlamaIndex
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Langdock
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

TensorFlow (Keras API)
Sxk28資訊網——每日最新資訊28at.com

文檔處理
Sxk28資訊網——每日最新資訊28at.com

非結構化
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Open-Parse
Sxk28資訊網——每日最新資訊28at.com

向量數據庫
Sxk28資訊網——每日最新資訊28at.com

Milvus
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Pgvector
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Pinecone
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Weaviate
Sxk28資訊網——每日最新資訊28at.com

數據探索和可視化
Sxk28資訊網——每日最新資訊28at.com

Pandas
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Matplotlib
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Seaborn
Sxk28資訊網——每日最新資訊28at.com


Sxk28資訊網——每日最新資訊28at.com

Streamlit
Sxk28資訊網——每日最新資訊28at.com

Sxk28資訊網——每日最新資訊28at.com

本文鏈接:http://m.www897cc.com/showinfo-26-92098-0.htmlGenai技術棧架構指南—十個工具,你知道哪個?

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: Go語言中的context包到底解決了啥問題?

下一篇: 微服務架構落地及其演進

標簽:
  • 熱門焦點
Top 日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不
欧美电影免费观看| 午夜在线视频观看日韩17c| 黑人巨大精品欧美黑白配亚洲 | 一区二区自拍| 亚洲精品资源| 亚洲欧美日韩国产综合| 久久久久久网| 欧美日韩成人| 国产精品一区二区久久精品 | 亚洲精品一级| 亚洲欧美日本视频在线观看| 久久午夜精品| 欧美四级剧情无删版影片| 国产日韩精品在线| 亚洲欧洲日本在线| 亚洲免费影视| 麻豆乱码国产一区二区三区| 欧美色图首页| 欧美在线视频一区| 欧美激情精品| 国产日韩精品一区二区三区在线| 亚洲激情影院| 小黄鸭视频精品导航| 欧美国产第一页| 国产亚洲免费的视频看| 亚洲美女av在线播放| 久久www成人_看片免费不卡| 欧美精品久久久久久久久老牛影院| 国产精品视频网址| 亚洲日本国产| 久久激情五月丁香伊人| 欧美日韩亚洲激情| 亚洲福利av| 欧美一级专区免费大片| 欧美日本一道本在线视频| 国内精品久久久久久久97牛牛| 一本色道久久综合亚洲精品按摩 | 一本到高清视频免费精品| 久久久久国产精品一区二区| 欧美三级在线播放| 在线欧美电影| 性色av一区二区三区| 欧美日韩国产二区| 永久91嫩草亚洲精品人人| 午夜精品久久久久久久99热浪潮| 欧美精品三级| 亚洲第一级黄色片| 久久精彩视频| 国产精品一区久久久| 日韩视频中文字幕| 男人的天堂亚洲| 国产主播一区二区三区| 亚洲女与黑人做爰| 欧美日韩视频在线第一区| 亚洲国产精品小视频| 久久精品一区二区三区四区| 国产精品无人区| 一区二区三区精密机械公司 | 狠狠狠色丁香婷婷综合久久五月 | 国产精品yjizz| 亚洲免费观看| 欧美国产精品一区| 亚洲福利视频三区| 久久天天躁夜夜躁狠狠躁2022 | 一区二区免费在线视频| 99国产一区二区三精品乱码| 蜜臀91精品一区二区三区| 国产日韩欧美日韩| 亚洲女人天堂av| 国产精品拍天天在线| 亚洲特级毛片| 国产精品v日韩精品v欧美精品网站| 日韩视频免费观看高清在线视频 | 欧美成人精品福利| 亚洲电影一级黄| 玖玖玖国产精品| 一区二区亚洲| 久久一区二区三区国产精品 | 欧美天天影院| 亚洲香蕉在线观看| 国产精品国产三级国产专区53| 亚洲视频免费在线| 国产精品久久久久久久久动漫| 亚洲专区一二三| 国产精品乱码| 午夜精品电影| 国产一本一道久久香蕉| 久久久精品国产免大香伊| 黄色一区二区三区四区| 久久偷看各类wc女厕嘘嘘偷窃| 极品中文字幕一区| 男人的天堂成人在线| 亚洲黄色成人| 欧美激情四色| aa级大片欧美| 国产精品乱人伦中文| 欧美伊人久久久久久午夜久久久久 | 欧美视频一区二区三区四区| 一区二区日本视频| 国产精品久久久久久久久婷婷| 亚洲欧美在线x视频| 国产午夜精品一区二区三区欧美| 久久久精品网| 亚洲国产精品久久| 欧美精品一区二区精品网| 一区二区三区视频在线观看| 国产精品免费视频观看| 久久精品成人欧美大片古装| 在线观看日韩av电影| 蜜桃久久精品一区二区| 日韩特黄影片| 国产精品区免费视频| 久久精品日韩欧美| 欧美视频免费| 亚洲在线播放电影| 国产一区二区中文| 欧美成人中文字幕| 在线一区观看| 国产亚洲精品久久久久婷婷瑜伽| 鲁大师影院一区二区三区| 99热免费精品在线观看| 国产精品一香蕉国产线看观看| 久久天堂国产精品| 一本一本久久a久久精品综合妖精 一本一本久久a久久精品综合麻豆 | 亚洲国产精品一区二区久| 欧美视频一区二区三区在线观看| 性欧美1819sex性高清| 亚洲国产成人av| 欧美午夜片欧美片在线观看| 久久精品男女| 99精品国产一区二区青青牛奶| 国产模特精品视频久久久久| 免费高清在线一区| 亚洲一区久久久| 国产一级揄自揄精品视频| 欧美精品 日韩| 欧美一级视频免费在线观看| 亚洲日本成人网| 国产日韩欧美综合在线| 欧美精品久久天天躁| 欧美一级日韩一级| 99热在这里有精品免费| 韩国精品主播一区二区在线观看| 欧美日本二区| 欧美在线观看视频一区二区三区| 亚洲日本一区二区| 国产一区二区三区久久久| 欧美日韩精品福利| 久久婷婷成人综合色| 亚洲宅男天堂在线观看无病毒| 亚洲高清一区二| 国产日韩欧美高清免费| 欧美乱在线观看| 久久久久久久欧美精品| 亚洲专区一区| 亚洲伦理一区| 在线成人激情视频| 国产日本欧美一区二区| 欧美日韩在线播放| 牛牛国产精品| 久久久福利视频| 午夜国产不卡在线观看视频| 99av国产精品欲麻豆| 影音先锋久久精品| 国产视频欧美| 国产精品久久久久久久久久免费 | 欧美日韩免费一区| 久热爱精品视频线路一| 国产欧美一区二区三区另类精品| 欧美日韩亚洲一区二区三区| 模特精品在线| 久久精品一区二区国产| 亚洲欧美另类在线| 一区二区欧美激情| 亚洲人屁股眼子交8| 一区免费观看视频| 国产亚洲欧美中文| 国产精品夜夜夜| 国产精品jvid在线观看蜜臀| 欧美精品尤物在线| 免费在线成人| 老司机精品视频一区二区三区| 欧美专区日韩专区| 午夜精品国产精品大乳美女| 中日韩美女免费视频网址在线观看| 亚洲三级性片| 亚洲黄色免费| 亚洲国产精品嫩草影院| 在线成人免费视频| 激情小说另类小说亚洲欧美| 国产一区二区三区在线观看免费视频 | 国产精品欧美精品| 欧美天堂亚洲电影院在线观看 | 国产在线视频不卡二| 国产亚洲欧美另类一区二区三区| 国产精品自拍小视频| 国产精品久久999| 国产精品爱啪在线线免费观看| 欧美日韩综合| 欧美日韩精品欧美日韩精品一| 欧美日本国产| 欧美日韩亚洲一区二| 国产精品都在这里| 国产精品日韩欧美|