DeepSeek Lanza el Nuevo Modelo Multimodal Visual Janus-Pro-7B, Superando Stable Diffusion y DALL-E 3
Lanzamiento Open-Source de Janus-Pro-7B
El 28 de enero, DeepSeek anunció el lanzamiento open-source del nuevo modelo multimodal visual Janus-Pro-7B. Este modelo superó a Stable Diffusion y DALL-E 3 de OpenAI en las pruebas de referencia GenEval y DPG-Bench, demostrando un rendimiento sobresaliente.
Innovador Marco Autoregresivo
Janus-Pro es un marco autoregresivo innovador que logra una comprensión unificada y generación de información multimodal. A diferencia de los métodos anteriores, Janus-Pro resuelve algunas de las limitaciones de los marcos anteriores al dividir el proceso de codificación visual en múltiples caminos independientes, manteniendo un solo marco transformador unificado para su procesamiento. Este enfoque de desacoplamiento no solo mitiga los conflictos que podrían surgir durante la comprensión y generación, sino que también mejora la flexibilidad del marco.
Rendimiento Superando Modelos Tradicionales
Janus-Pro supera los modelos unificados tradicionales y también destaca al compararlo con modelos específicos de tareas. Con su simplicidad, alta flexibilidad y eficiencia, Janus-Pro se ha convertido en un fuerte competidor para el modelo multimodal unificado de próxima generación.
Modelo Unificado de Lenguaje Multimodal de Gran Escala
Janus-Pro es un modelo unificado de lenguaje multimodal de gran escala (MLLM), que logra un procesamiento más eficiente al desacoplar el proceso de codificación visual de la comprensión y generación multimodal. Janus-Pro está basado en el modelo DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base. Para tareas de comprensión multimodal, Janus-Pro utiliza SigLIP-L como codificador visual, que admite entradas de imágenes de 384x384 píxeles. Para tareas de generación de imágenes, Janus-Pro utiliza un tokenizador de una fuente específica con una tasa de submuestreo de 16.
Versiones Avanzadas y Mejoras
Janus-Pro es una versión avanzada del trabajo anterior, Janus. Específicamente, Janus-Pro integra estrategias de entrenamiento optimizadas, datos de entrenamiento ampliados y una expansión de escala de modelo más grande. Gracias a estas mejoras, Janus-Pro ha logrado avances significativos en la comprensión multimodal y la capacidad de seguir instrucciones de texto a imagen, a la vez que mejora la estabilidad de la generación de imágenes a partir de texto.
Arquitectura JanusFlow
Según la descripción oficial, JanusFlow introduce una arquitectura minimalista que integra modelos de lenguaje autoregresivos con flujos normalizantes, un método avanzado de modelo generativo. La investigación ha demostrado que los flujos normalizantes pueden entrenarse directamente dentro del marco de un modelo de lenguaje grande sin necesidad de ajustes arquitectónicos complejos. Numerosos experimentos han demostrado que JanusFlow alcanza un rendimiento comparable o incluso mejor en sus respectivos dominios que los modelos especializados, y supera significativamente los métodos unificados existentes en las pruebas de referencia estándar. Este trabajo representa un paso adelante hacia modelos de lenguaje visual más eficientes y generales.
Conclusión
El modelo Janus-Pro-7B de DeepSeek, open-source, sobresale en tareas de comprensión y generación multimodal, superando a Stable Diffusion y DALL-E 3 gracias a su innovador marco autoregresivo y proceso desacoplado de codificación visual. El lanzamiento de Janus-Pro no solo demuestra el liderazgo técnico de DeepSeek, sino que también ofrece poderosas herramientas para los desarrolladores, impulsando el avance de los modelos multimodales.
Dirección específica:GitHub 和 HuggingFace