首页 > 分享 > python编写apriori算法关联鸢尾花数据集

python编写apriori算法关联鸢尾花数据集

花匠小妙招
2024-12-16 23:07

以下是一个简单的 python 实现，使用 apyori 库实现 Apriori 算法：

import [pandas](https://wenku.csdn.net/doc/6412b725be7fbd1778d4940f?spm=1055.2569.3001.10083) as pd from apyori import apriori # 加载数据集 data = pd.read_csv('iris.csv', [header](https://wenku.csdn.net/doc/699o9nqm1r?spm=1055.2569.3001.10083)=None) # 数据预处理 [items](https://wenku.csdn.net/doc/6412b6cbbe7fbd1778d47ffb?spm=1055.2569.3001.10083) = [] for i in range(len(data)): items.[append](https://wenku.csdn.net/doc/645cb27495996c03ac3ed329?spm=1055.2569.3001.10083)([str(data.values[i,j]) for j in range(len(data.columns))]) # 应用 Apriori 算法 results = list(apriori(items, min_support=0.2, min_confidence=0.7, min_lift=1.2)) # 打印结果 for r in results: print(r)

在这个例子中，我们加载了一个名为 iris.csv 的数据集，然后通过将每一个样本的属性都视为一个项，将整个数据集转换为项集的形式。我们然后使用 apriori 函数来运行 Apriori 算法，设置最小支持度、最小置信度和最小提升度的阈值，并打印结果。

相关问题

好的，下面是代码实现：

import pandas as pd import numpy as np # 加载鸢尾花数据集 iris = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=None) # 将数据集转换为交易数据格式，即每个样本为一条交易记录，每个特征为一个项 transactions = [] for i in range(len(iris)): transactions.append([str(item) for item in iris.iloc[i,:-1].values]) # 定义函数计算频繁项集 def find_frequent_itemsets(transactions, support): """ :param transactions: 交易数据 :param support: 支持度阈值 :return: 频繁项集 """ itemsets = {} for transaction in transactions: for item in transaction: if item not in itemsets: itemsets[item] = 0 itemsets[item] += 1 num_items = len(transactions) freq_itemsets = {} for itemset in itemsets: support_itemset = itemsets[itemset] / num_items if support_itemset >= support: freq_itemsets[(itemset,)] = support_itemset k = 2 while freq_itemsets != {}: cand_itemsets = set([set(x) for x in freq_itemsets.keys()]) freq_itemsets = {} for itemset in cand_itemsets: support_itemset = 0 for transaction in transactions: if itemset.issubset(set(transaction)): support_itemset += 1 support_itemset /= num_items if support_itemset >= support: freq_itemsets[tuple(sorted(itemset))] = support_itemset k += 1 return freq_itemsets # 定义函数计算关联规则 def find_association_rules(freq_itemsets, confidence): """ :param freq_itemsets: 频繁项集 :param confidence: 置信度阈值 :return: 关联规则 """ rules = [] for itemset in freq_itemsets: if len(itemset) > 1: for i in range(1, len(itemset)): for antecedent in combinations(itemset, i): consequent = tuple(sorted(set(itemset) - set(antecedent))) if antecedent in freq_itemsets and consequent in freq_itemsets: confidence_rule = freq_itemsets[itemset] / freq_itemsets[antecedent] if confidence_rule >= confidence: rules.append((antecedent, consequent, confidence_rule)) return rules # 调用函数计算频繁项集和关联规则 freq_itemsets = find_frequent_itemsets(transactions, 0.1) rules = find_association_rules(freq_itemsets, 0.6) # 输出结果 print("频繁项集：") for itemset in freq_itemsets: print(itemset, freq_itemsets[itemset]) print("n关联规则：") for rule in rules: print(rule[0], "->", rule[1], "置信度：", rule[2])