Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung leistungsstarker großer Sprachmodelle (LLMs) ist derzeit eines der spannendsten Felder der Künstlichen Intelligenz. Bisher basierte das Training dieser Modelle jedoch oft auf riesigen Mengen an Textdaten, deren Lizenzstatus unklar oder gar proprietär war. Dies führte zu berechtigten Bedenken hinsichtlich Urheberrechtsverletzungen und ethischer Fragen. Ein neuer Ansatz, der auf offen lizenzierten Texten basiert, verspricht hier Abhilfe zu schaffen. Mit dem Common Pile v0.1 steht nun ein umfangreicher Datensatz zur Verfügung, der dieses Ziel verfolgt.
Der Common Pile v0.1 ist eine Sammlung von 8 Terabyte an offen lizenzierten Textdaten, die speziell für das Training von LLMs entwickelt wurde. Er umfasst Inhalte aus 30 verschiedenen Quellen und deckt ein breites Spektrum an Themen ab. Von Forschungsarbeiten und Code über Bücher und Enzyklopädien bis hin zu Lehrmaterialien und Audiotranskripten bietet der Datensatz eine vielfältige Grundlage für das Training von KI-Modellen. Diese Diversität ist entscheidend, um die Fähigkeit der LLMs zu verbessern, verschiedene Arten von Texten zu verstehen und zu generieren.
Die Entwickler des Common Pile haben nicht nur den Datensatz selbst veröffentlicht, sondern auch zwei darauf trainierte LLMs: Comma v0.1-1T und Comma v0.1-2T. Diese Modelle wurden mit 1 bzw. 2 Billionen Token trainiert und zeigen eine Leistung, die mit der von LLMs vergleichbar ist, die auf nicht-lizenzierten Daten mit ähnlichem Rechenaufwand trainiert wurden, wie z.B. Llama 1 und 2 7B. Dies belegt eindrucksvoll das Potenzial von offen lizenzierten Daten für das Training leistungsstarker Sprachmodelle.
Die Veröffentlichung des Common Pile v0.1 ist ein wichtiger Schritt in Richtung transparenter und ethisch vertretbarer KI-Entwicklung. Durch die Bereitstellung eines großen, frei verfügbaren Datensatzes wird die Forschung an LLMs demokratisiert und die Entwicklung innovativer Anwendungen erleichtert. Unternehmen wie Mindverse, die sich auf KI-basierte Lösungen spezialisieren, können von solchen Ressourcen profitieren und maßgeschneiderte Anwendungen wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme entwickeln, die auf ethisch einwandfreien Datengrundlagen basieren.
Der Common Pile v0.1 ist ein Beispiel dafür, wie Offenheit und Transparenz die Entwicklung von KI-Technologien vorantreiben können. Durch die Bereitstellung von Ressourcen wie diesem Datensatz und den dazugehörigen Modellen wird die Zusammenarbeit in der KI-Community gefördert und die Entwicklung innovativer Lösungen beschleunigt. Dies ist besonders relevant für Unternehmen wie Mindverse, die als KI-Partner agieren und maßgeschneiderte Lösungen für verschiedene Anwendungsbereiche entwickeln.
Die Entwicklung und Veröffentlichung des Common Pile v0.1 ist ein vielversprechender Schritt in die Zukunft der KI. Es bleibt abzuwarten, wie sich dieser Datensatz und die darauf basierenden Modelle weiterentwickeln und welche neuen Möglichkeiten sich daraus für die Entwicklung von KI-Anwendungen ergeben. Die Verfügbarkeit von großen, offen lizenzierten Datensätzen wird die Forschung und Entwicklung im Bereich der LLMs nachhaltig prägen und den Weg für eine verantwortungsvolle und transparente KI-Zukunft ebnen.
Quellen: https://huggingface.co/papers/2506.05209 https://arxiv.org/html/2506.05209v1 https://huggingface.co/common-pile https://mastodon.social/@glynmoody/114631039531609033 https://www.chatpaper.ai/zh/dashboard/paper/60b7398d-fc55-4dcd-917d-7a286ad34297 https://pile.eleuther.ai/ https://github.com/r-three/common-pile https://www.linkedin.com/posts/pierre-carl-langlais-b0105b10_im-announcing-the-release-of-the-official-activity-7336031743126179841-3fJyLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen