ia-microservice/app/schemas/audio_standard.py

"""
Esquema de resultado esperado de modelos de transcripción.

Propósito:
    Define el formato estándar de los resultados devueltos por los modelos de transcripción
    de audio, independientemente del proveedor de IA utilizado.

Homologación:
    Garantiza que el resultado de la transcripción siempre se entregue en el mismo
    formato estándar para Qualidot.

Pendiente (recomendación personal):
    - Definir mejor la estructura de cada segmento según las opciones avanzadas (diarization, timestamps, sentiment)
    - Delimitar los proveedores de IA soportados inicialmente
"""

from fastapi import UploadFile
from fastapi.params import File, Form
from pydantic import BaseModel, Field
from typing import List, Optional

class AudioRequestFile:
    """Modelo de solicitud para transcripción de audio."""
    def __init__(
        self,
        file: UploadFile = File(..., description="Archivo de audio a procesar (ej. mp3, wav)"),
        provider: str = Form(..., description="Proveedor de IA a utilizar (ej. openai, assemblyai)"),
        model: str = Form(..., description="Modelo de IA a utilizar (ej. whisper-1)"),
        diarization: Optional[bool] = Form(False, description="Activa la separación e identificación de múltiples hablantes"),
        timestamps: Optional[bool] = Form(False, description="Activa las marcas de tiempo exactas por cada segmento hablado"),
        sentiment: Optional[bool] = Form(False, description="Activa el análisis de sentimiento (POSITIVO/NEGATIVO) por segmento")
    ):
        self.file = file
        self.provider = provider
        self.model = model
        self.diarization = diarization
        self.timestamps = timestamps
        self.sentiment = sentiment

class TranscriptionSegment(BaseModel):
    """Modelo que representa un segmento de transcripción de audio detallado."""
    text: str = Field(
        ...,
        description="Texto transcrito en este fragmento específico"
    )
    speaker: Optional[str] = Field(
        None,
        description="Identificador del hablante (ej. 'Speaker A') si diarization está activo"
    )
    start_time: Optional[float] = Field(
        None,
        description="Marca de tiempo en segundos donde inicia el segmento"
    )
    end_time: Optional[float] = Field(
        None,
        description="Marca de tiempo en segundos donde termina el segmento"
    )
    sentiment: Optional[str] = Field(
        None,
        description="Sentimiento detectado en el segmento (ej. 'POSITIVE', 'NEGATIVE')"
    )

class StandardTranscriptionResult(BaseModel):
    """Modelo que representa el resultado estándar de una transcripción de audio para Qualidot."""
    status: str = Field(
        ...,
        description="Estado final de la petición ('success' o 'error')"
    )
    original_filename: str = Field(
        ...,
        description="Nombre original del archivo de audio procesado"
    )
    provider_used: str = Field(
        ...,
        description="Proveedor de IA que ejecutó la transcripción (ej. OpenAI)"
    )
    model_used: str = Field(
        ...,
        description="Modelo específico utilizado para el proceso"
    )
    full_transcript: Optional[str] = Field(
        None,
        description="Texto completo y continuo de toda la transcripción"
    )
    segments: Optional[List[TranscriptionSegment]] = Field(
        None,
        description="Lista detallada de segmentos si se solicitaron opciones avanzadas (diarization, timestamps, sentiment)"
    )
    confidence_score: Optional[float] = Field(
        None,
        description="Nivel de certeza global del modelo (valor entre 0.0 y 1.0)"
    )