The Future is Now

Tag: news (Page 1 of 4)

Episode 56: OpenAI o1 Review

Words of the future
Words of the future
Episode 56: OpenAI o1 Review
Loading
/

In dieser Episode reden Florian und Ich über das neue Model o1 und was es besonders macht. Außerdem reden wir über den Hardwaremarkt, Alpha Proteo und die US Politik.

Mehr Informationen auf dem Discord Server
https://discord.gg/3YzyeGJHth
oder auf https://mkannen.tech

Episode 52: Jubiläums Folge! Ein Jahr Words of The Future

Words of the Future
Words of the future
Episode 52: Jubiläums Folge! Ein Jahr Words of The Future
Loading
/

Words of the Future wird ein Jahr alt! Florian und Ich schauen zurück auf das Jahr und machen Vorhersagen für das Nächste. Das ist auch die letzte Folge die im wöchentlichen Format kommt. Ab jetzt beginnt Staffel 2 und das bedeutet unregelmäßigere Folgen (etwa ein mal pro Monat), aber dafür längere Folgen und nur noch absolute Highlights und spannende Themen mit hoffentlich mehr Gästen.

Episode 48: KI Hardware, und die Chancen und Gefahren von KI

Words of the Future
Words of the future
Episode 48: KI Hardware, und die Chancen und Gefahren von KI
Loading
/

In dieser Episode reden Niklas und Ich über KI in Bildung und Medizin und über neue Chips designed für KI.

Mehr Informationen auf dem Discord Server
https://discord.gg/3YzyeGJHth
oder auf https://mkannen.tech

Episode 47: Claude 3 und Inflection 2.5

Words of the Future
Words of the future
Episode 47: Claude 3 und Inflection 2.5
Loading
/

In dieser Epsiode reden Nico und Ich über die neuen Modelle von Anthropic und Inflection.ai

Mehr Informationen auf dem Discord Server
https://discord.gg/3YzyeGJHth
oder auf https://mkannen.tech

Episode 46: 1-Bit LLMs, Stable Diffusion 3, und Mistral Modelle

Words of the Future
Words of the future
Episode 46: 1-Bit LLMs, Stable Diffusion 3, und Mistral Modelle
Loading
/

In dieser Folge reden Florian und Max über den Klarna Assistenten, Stable Diffusion 3 und die neuen Mistral Modelle.
Sorry für die Verspätung der Folge.

Mehr Informationen auf dem Discord Server
https://discord.gg/3YzyeGJHth
oder auf https://mkannen.tech

Episode 45: Sora, Gemini 1.5 und Groq

Words of the Future
Words of the future
Episode 45: Sora, Gemini 1.5 und Groq
Loading
/

In dieser Episode reden Florian und Ich über Sora, neue KI Deals, V-JEPA, Groq und vieles mehr.

Mehr Informationen auf dem Discord Server
https://discord.gg/3YzyeGJHth
oder auf https://mkannen.tech

Episode 44: VR, TTS Modelle, und Russland

Words of the Future
Words of the future
Episode 44: VR, TTS Modelle, und Russland
Loading
/

In dieser Epsiode reden Florian und Ich über Neuerungen bei ChatGPT, neue text2iamge/audio Modelle und staatliche Kontrolle von KI.

Sora und Gemini 1.5 kamen kurz nach der Aufnahme raus. Wir werden nächste Woche ausführlich darüber reden.

Mehr Informationen auf dem Discord Server
https://discord.gg/3YzyeGJHth
oder auf https://mkannen.tech

Episode 43: Open Source Modelle, OpenAI Agents und Politik

Words of the Future
Words of the future
Episode 43: Open Source Modelle, OpenAI Agents und Politik
Loading
/

In dieser Episode reden Florian und Ich über OpenAIs Agent Pläne, neue Deepmind paper und Updates für Bard und Copilot.

Meine Implementation des Self-Discover paper: https://github.com/Max-Ryujin/Self-Discover

Mehr Informationen auf dem Discord Server
https://discord.gg/3YzyeGJHth
oder auf https://mkannen.tech

Episode 42: GPT-5, Regulation, und exclusive Infos über ein neues Model

Words of the Future
Words of the future
Episode 42: GPT-5, Regulation, und exclusive Infos über ein neues Model
Loading
/

In dieser Episode reden Florian und ich über neue OpenAI Trainings, die Tailor Swift Deepfake Thematik, und Open-source Modelle die GPT-4 übertreffen.

Mehr Informationen auf dem Discord Server
https://discord.gg/3YzyeGJHth
oder auf https://mkannen.tech

Episode 41: Meta macht AGI und KIs beeinflussen unsere Kultur

Words of the Future
Words of the future
Episode 41: Meta macht AGI und KIs beeinflussen unsere Kultur
Loading
/

In dieser Folge reden Florian und Ich über demnächst erscheinene Modelle, Metas Pläne, und neue Hardware in VR.

Mehr Informationen auf dem Discord Server
https://discord.gg/3YzyeGJHth
oder auf https://mkannen.tech

Episode 40: CES, Wahlen, und KI in der Forschung

Words of the Future
Words of the future
Episode 40: CES, Wahlen, und KI in der Forschung
Loading
/

In dieser Episode reden Nico und Ich über die CES, humanoide Roboter und neue Forschungsergbnisse durch KI.

Mehr Informationen auf dem Discord Server
https://discord.gg/3YzyeGJHth
oder auf https://mkannen.tech

Episode 36: Gerüchte, Mixtral, und Fusion

Words of the Future
Words of the future
Episode 36: Gerüchte, Mixtral, und Fusion
Loading
/

In dieser Episode reden Florian und Ich über GPT-4.5 Gerüchte, alternative Computer, und Forschritte in Medizin und Fusion.

Frohe Weihnachten!

Mehr Informationen auf dem Discord Server
https://discord.gg/3YzyeGJHth
oder auf https://mkannen.tech

Episode 35: NeurIPS, Mixtral und Phi-2

Words of the Future
Words of the future
Episode 35: NeurIPS, Mixtral und Phi-2
Loading
/

In dieser Folge reden Nico und Ich über die ganzen Neuigkeiten die im Zuge der NeurIPS raus kamen, darunter neue Modelle und Paper.

Mehr Informationen auf dem Discord Server
https://discord.gg/3YzyeGJHth
oder auf https://mkannen.tech

Gemini is here

Google Deepmind just released their new Gemini models. They come in 3 sizes. Nano will be used on devices like the Pixel phones, and Pro will be used in their products such as Bard, and Ultra is going to be released at the beginning of next year. The models are multimodal and can input, audio, video, text, images, and code.

It outperforms current state-of-the-art models not only in text-based tasks but also in other modalities.

Test the Pro version now in Bard and read more about the model here and here.

Google found a way to improve math skills in LLMs

LLMs are powerful tools, but they often struggle with tasks that require logical and algorithmic reasoning, such as arithmetic. A team of researchers from Google has developed a new technique to teach LLMs how to perform arithmetic operations by using in-context learning and algorithmic prompting. Algorithmic prompting means that the model is given detailed explanations of each step of the algorithm, such as addition or multiplication. The researchers showed that this technique can improve the performance of LLMs on arithmetic problems that are much harder than those seen in the examples. They also demonstrated that LLMs can use algorithmic reasoning to solve complex word problems by interacting with other models that have different skills. This work suggests that LLMs can learn algorithmic reasoning as a skill and apply it to various tasks.

Results from the paper comparing their approach vs. other prompting techniques.

Microsoft published the next Version of Kosmos

Researchers at Microsoft have unveiled Kosmos-2 the successor of Kosmos-1, a Multimodal Large Language Model (MLLM) that integrates the capability of perceiving object descriptions and grounding text in the visual world. By representing refer expressions as links in Markdown format, Kosmos-2 achieves the vital task of grounding text to visual elements, enabling multimodal grounding, referring expression comprehension and generation, perception-language tasks, and language understanding and generation. This milestone in the development of artificial general intelligence lays the foundation for Embodiment AI and the convergence of language, multimodal perception, action, and world modeling, bringing us closer to bridging the gap between humans and machines and revolutionizing various domains where AI interacts with the real world. With just 1.6B parameters, the model is quite small and will be available open on GitHub

RoboCat handles every Robot

Deepmind published a new blog post where they present their newest AI which is based on their previous work Gato. RoboCat is a self-improving AI agent for robotics that learns to perform a variety of tasks across different arms and then self-generates new training data to improve its technique. It is the first agent to solve and adapt to multiple tasks and do so across different, real robots. RoboCat learns much faster than other state-of-the-art models. It can pick up a new task with as few as 100 demonstrations because it draws from a large and diverse dataset. This capability will help accelerate robotics research, as it reduces the need for human-supervised training, and is an important step towards creating a general-purpose robot.

Voicebox: A new Voice Model

Voicebox is a new generative AI for speech that can generalize to speech-generation tasks it was not specifically trained to accomplish with state-of-the-art performance. It can create outputs in a vast variety of styles, from scratch or from a sample, and it can modify any part of a given sample. It can also perform tasks such as:

  • In-context text-to-speech synthesis: Using a short audio segment, it can match its style and generate text.
  • Cross-lingual style transfer: Given a sample of speech and a passage of text in six languages, it can produce a reading of the text in that language.
  • Speech denoising and editing: It can resynthesize or replace corrupted segments within audio recordings.
  • Diverse speech sampling: It can generate speech that is more representative of how people talk in the real world.

Voicebox uses a new approach called Flow Matching, which learns from raw audio and transcription without requiring specific training for each task. It also uses a highly effective classifier to distinguish between authentic speech and audio generated with Voicebox. Voicebox outperforms the current state-of-the-art English model VALL-E on zero-shot text-to-speech and cross-lingual style transfer and achieves new state-of-the-art results on word error rate and audio similarity. Voicebox is not publicly available because of the potential risks of misuse, but the researchers have shared audio samples and a research paper detailing the approach and results. They hope to see a similar impact for speech as for other generative AI domains in the future.

« Older posts

© 2024 Maximilian Kannen

Theme by Anders NorenUp ↑